这篇文章算是个科普贴。如果已经熟悉Spark的就略过吧。 前言 很多初学者其实对Spark的编程模式还是RDD这个概念理解不到位,就会产生一些误解。 比如,很多时候我们常常以为一个文件是会被完整读入到内存,然后做各种变换…
分类:Spark
Spark MLlib机器学习开发指南(4)--特征提取--TF-IDF
翻译自官方文档 基于最新2.2.0版本翻译 转载注明出处 xcrossed 机器学习 本节介绍和特征一起工作的算法,大致分为以下几类: 提取:从原始数据提取特征 转换:缩放,转换,或者修改特征 选择:从一个大的特征集合里…
[语法]updateStateByKey~Spark Streaming累加器操作
Spark源码走读12——Spark Streaming – 峰哥的专栏 – 博客频道 – CSDN.NET http://blog.csdn.net/huwenfeng_2011/a…
SparkStreaming+Kafka 实现统计基于缓存的实时uv
我的原创地址:https://dongkelun.com/2018/06/25/KafkaUV/ 前言 本文利用SparkStreaming+Kafka实现实时的统计uv,即独立访客,一个用户一天内访问多次算一次,这个看…
学习笔记二:spark单节点搭建
0 前言 关于hadoop搭建可参见hadoop单节点搭建。当然你有多服务器或设备支持,也可直接参见搭建Spark集群 1 安装scala 下载scala-2.11.8 $ wget https://downloads.…
Spark RDD的处理过程
闲来无事,研究一下Spark Rdd的处理过程。 以一个简单的例子看看: val textRDD = sc.textFile("/home/ubuntu/people.txt") val filterRDD = text…
Spark OFF_HEAP
在文章的开头,安利一下我自己的github上的一个项目:AlluxioBlockManager,同时还有我的github上的博客:blog 这个项目的作用是替代Spark2.0以前默认的TachyonBlockManag…
spark-streaming中使用spark-sql做关联查询
实现: 首先基于topic,创建出kafka的DStream流 val sparkConf = new SparkConf().setAppName(appParams.appName) val sc = new Spa…
spark streaming checkpointing 踩坑记
spark streaming的应用可能需要7*24小时不间断的运行,因此需要一定的容错能力。在系统出现问题后,spark streaming 应用能够从上次出错的地方重新开始。为此spark streaming提供了c…
Spark-DataSet学习
1.DataSet相关概念 Dataset是一个分布式的数据集。Dataset是Spark 1.6开始新引入的一个接口,它结合了RDD API的很多优点(包括强类型,支持lambda表达式等),以及Spark SQL的优…
spark使用parallelize方法创建RDD
通过调用SparkContext的parallelize方法,在一个已经存在的Scala集合上创建的(一个Seq对象)。集合的对象将会被拷贝,创建出一个可以被并行操作的分布式数据集。 data = […
Hadoop、Spark、HBase与Redis的适用性讨论
最近在网上又看到有关于Hadoop适用性的讨论[1]。想想今年大数据技术开始由互联网巨头走向中小互联网和传统行业,估计不少人都在考虑各种“纷繁复杂”的大数据技术的适用性的问题。这儿我就结合我这几年在Hadoop等大数据方…