标签：spark

Spark 配置

修改主机名和HOSTS 修改各台机器的主机名 nano /etc/hostname 主机名的命名规则如下 spark-001 spark-002 ... 修改各台机器的hosts文件 nano /etc/hosts 配置…

RDD（Resilient Distributed Dataset），全称弹性分布式数据集，是Spark对数据进行的核心抽象概念。我们可以将RDD理解为一个不可变的分布式对象集合，他可以包含Python、Java、Sca…

Spark Streaming程序的停止可以是强制停止、异常停止或其他方式停止。首先我们看StreamingContext的stop()方法 def stop( stopSparkContext: Boolean = …

1、何为大数据技术生态圈？摘自https://www.zhihu.com/question/27974418/answer/38965760 传统的文件系统是单机的，不能横跨不同的机器。HDFS（Hadoop Dist…

必要配置通过下面参数开启DRA spark.streaming.dynamicAllocation.enabled=true 设置最大最小的Executor 数目： spark.streaming.dynamicAll…

我的原创地址：https://dongkelun.com/2018/06/19/sparkSubmitKafka/ 前言 Spark Streaming本身是没有Kafka相关的jar包和API的，如果想利用Spark …

spark具有详细的官方文档 spark具有完善的接口：Scala、Python、Java、R 启动Scala接口 ./bin/spark-shell Python ./bin/pyspark 启动pyspark,出现s…

spark internal – 作业调度作者：刘旭晖 Raymond 转载请注明出处 Email：colorant at 163.com BLOG：http://blog.csdn.net/coloran…

本篇开始介绍Spark SQL的入门示例 Maven中引入 <dependency> <groupId>org.apache.spark</groupId> <artifactI…

构建spark 标签：大数据花了299在天善学院买了玩转大数据分析的教程。虽然名字是一分钟建立，但那仅仅是在centos单机上安装spark，离建立hadoop、spark、hive三位一体的集群环境差距还不是一点点。…

这篇文章算是个科普贴。如果已经熟悉Spark的就略过吧。前言很多初学者其实对Spark的编程模式还是RDD这个概念理解不到位，就会产生一些误解。比如，很多时候我们常常以为一个文件是会被完整读入到内存，然后做各种变换…

Spark源码走读12——Spark Streaming – 峰哥的专栏 – 博客频道 – CSDN.NET http://blog.csdn.net/huwenfeng_2011/a…