标签：spark

Kafka：ZK+Kafka+Spark Streaming集群环境搭建（二十八）：kafka0.10.1 内置性能测试API用法示例

消费者测试： ./kafka-consumer-perf-test.sh --zookeeper vm10.60.0.11.com.cn:2181,vm10.60.0.7.com.cn:2181,vm10.60.0.8.…

DataFrame写入hive API： registerTempTable函数是创建spark临时表 insertInto函数是向表中写入数据，可以看出此函数不能指定数据库和分区等信息，不可以直接进行写入。向hive…

目录前言 Spark Streaming持久化设计模式 DStreams输出操作使用foreachRDD的设计模式 Spark访问Hbase Hbase通用连接类 Hbase输出操作填坑记录 Spark访问Mysq…

给定交易数据集，FP增长的第一步是计算项目频率并识别频繁项目。与为同样目的设计的类似Apriori的算法不同，FP增长的第二步使用后缀树（FP-tree）结构来编码事务，而不会显式生成候选集，生成的代价通常很高。第二步之…

spark-submit 可以提交任务到 spark 集群执行，也可以提交到 hadoop 的 yarn 集群执行。 1. 例子一个最简单的例子，部署 spark standalone 模式后，提交到本地执…

协同过滤算法介绍：协同过滤常被用于推荐系统。这类技术目标在于填充“用户－商品”联系矩阵中的缺失项。Spark.ml目前支持基于模型的协同过滤，其中用户和商品以少量的潜在因子来描述，用以预测缺失项。Spark.ml使用…

本文git地址，转载请注明，感谢 Spark 读取数据源码解析问题描述在使用spark读取HDFS上的数据时，经常使用load的方式（没有hive的情况下） spark.read.schema(schema).lo…

SparkSession是一个比较重要的类，它的功能的实现，肯定包含比较多的函数，这里介绍下它包含哪些函数。 builder函数public static SparkSession.Builder builder()创建…

本文主要总结最近一段时间使用maven时，遇到需要maven plugins的一些简单总结。 1）在Build下重新指定最终打包报名 <build> <!--最终打包的包名，如果这里不指定，则默认包名为…

15/06/11 15:35:50 ERROR Shell: Failed to locate the winutils binary in the hadoop binary path java.io.IOExcept…

清华大学开源软件镜像站 python库 python库-阿里源 scala Hadoop官方 Hadoop CentOS …

1、spark 官网选择对应Hadoop的版本，之前安装的Hadoop版本为hadoop-3.0.2，获取下载包： wget http://mirrors.hust.edu.cn/apache/spark/spark-2…