消费者测试: ./kafka-consumer-perf-test.sh --zookeeper vm10.60.0.11.com.cn:2181,vm10.60.0.7.com.cn:2181,vm10.60.0.8.…
标签:spark
Hive:Spark中如何实现将rdd结果插入到hive1.3.0表中
DataFrame写入hive API: registerTempTable函数是创建spark临时表 insertInto函数是向表中写入数据,可以看出此函数不能指定数据库和分区等信息,不可以直接进行写入。 向hive…
Spark踩坑记——数据库(Hbase+Mysql)
目录 前言 Spark Streaming持久化设计模式 DStreams输出操作 使用foreachRDD的设计模式 Spark访问Hbase Hbase通用连接类 Hbase输出操作 填坑记录 Spark访问Mysq…
Spark FPGrowth (Frequent Pattern Mining)
给定交易数据集,FP增长的第一步是计算项目频率并识别频繁项目。与为同样目的设计的类似Apriori的算法不同,FP增长的第二步使用后缀树(FP-tree)结构来编码事务,而不会显式生成候选集,生成的代价通常很高。第二步之…
spark-submit 提交任务及参数说明
spark-submit 可以提交任务到 spark 集群执行,也可以提交到 hadoop 的 yarn 集群执行。 1. 例子 一个最简单的例子,部署 spark standalone 模式后,提交到本地执…
协同过滤(ALS)算法介绍及Spark MLlib调用实例(Scala/Java/Python)
协同过滤 算法介绍: 协同过滤常被用于推荐系统。这类技术目标在于填充“用户-商品”联系矩阵中的缺失项。Spark.ml目前支持基于模型的协同过滤,其中用户和商品以少量的潜在因子来描述,用以预测缺失项。Spark.ml使用…
Spark load() 源码解析
本文git地址,转载请注明,感谢 Spark 读取数据 源码解析 问题描述 在使用spark读取HDFS上的数据时,经常使用load的方式(没有hive的情况下) spark.read.schema(schema).lo…
【spark】SparkSession的API
SparkSession是一个比较重要的类,它的功能的实现,肯定包含比较多的函数,这里介绍下它包含哪些函数。 builder函数public static SparkSession.Builder builder()创建…
Java-Maven(十):Maven 项目常用plugins
本文主要总结最近一段时间使用maven时,遇到需要maven plugins的一些简单总结。 1)在Build下重新指定最终打包报名 <build> <!--最终打包的包名,如果这里不指定,则默认包名为…
ERROR Shell: Failed to locate the winutils binary in the hadoop binary path
15/06/11 15:35:50 ERROR Shell: Failed to locate the winutils binary in the hadoop binary path java.io.IOExcept…
各种资源下载地址
清华大学开源软件镜像站 python库 python库-阿里源 scala Hadoop官方 Hadoop CentOS …
spark 2.4安装
1、spark 官网选择对应Hadoop的版本,之前安装的Hadoop版本为hadoop-3.0.2,获取下载包: wget http://mirrors.hust.edu.cn/apache/spark/spark-2…