分类：Spark

Spark会把数据都载入到内存么？

这篇文章算是个科普贴。如果已经熟悉Spark的就略过吧。前言很多初学者其实对Spark的编程模式还是RDD这个概念理解不到位，就会产生一些误解。比如，很多时候我们常常以为一个文件是会被完整读入到内存，然后做各种变换…

翻译自官方文档基于最新2.2.0版本翻译转载注明出处 xcrossed 机器学习本节介绍和特征一起工作的算法，大致分为以下几类：提取：从原始数据提取特征转换：缩放，转换，或者修改特征选择：从一个大的特征集合里…

Spark源码走读12——Spark Streaming – 峰哥的专栏 – 博客频道 – CSDN.NET http://blog.csdn.net/huwenfeng_2011/a…

我的原创地址：https://dongkelun.com/2018/06/25/KafkaUV/ 前言本文利用SparkStreaming+Kafka实现实时的统计uv，即独立访客，一个用户一天内访问多次算一次，这个看…

0 前言关于hadoop搭建可参见hadoop单节点搭建。当然你有多服务器或设备支持，也可直接参见搭建Spark集群 1 安装scala 下载scala-2.11.8 $ wget https://downloads.…

闲来无事，研究一下Spark Rdd的处理过程。以一个简单的例子看看： val textRDD = sc.textFile("/home/ubuntu/people.txt") val filterRDD = text…

在文章的开头，安利一下我自己的github上的一个项目：AlluxioBlockManager，同时还有我的github上的博客：blog 这个项目的作用是替代Spark2.0以前默认的TachyonBlockManag…

实现：首先基于topic，创建出kafka的DStream流 val sparkConf = new SparkConf().setAppName(appParams.appName) val sc = new Spa…

spark streaming的应用可能需要7*24小时不间断的运行,因此需要一定的容错能力。在系统出现问题后，spark streaming 应用能够从上次出错的地方重新开始。为此spark streaming提供了c…

1.DataSet相关概念 Dataset是一个分布式的数据集。Dataset是Spark 1.6开始新引入的一个接口，它结合了RDD API的很多优点（包括强类型，支持lambda表达式等），以及Spark SQL的优…

通过调用SparkContext的parallelize方法，在一个已经存在的Scala集合上创建的（一个Seq对象）。集合的对象将会被拷贝，创建出一个可以被并行操作的分布式数据集。 data = […

最近在网上又看到有关于Hadoop适用性的讨论[1]。想想今年大数据技术开始由互联网巨头走向中小互联网和传统行业，估计不少人都在考虑各种“纷繁复杂”的大数据技术的适用性的问题。这儿我就结合我这几年在Hadoop等大数据方…