以下是整理的Spark中的一些配置参数,官方文档请参考Spark Configuration。 Spark提供三个位置用来配置系统: Spark属性:控制大部分的应用程序参数,可以用SparkConf对象或…
分类:Spark
Spark-shell引入第三方包
Spark-shell引入第三方包 如何引入 spark-shell –jars path/nscala-time_2.10-2.12.0.jar 若有多个jar包需要导入,中间用逗号隔开即可。 scala …
Spark性能调优之合理设置并行度
Spark性能调优之合理设置并行度 1.Spark的并行度指的是什么? spark作业中,各个stage的task的数量,也就代表了spark作业在各个阶段stage…
Tuple,Array,Map,文件操作
Tuple是一个元组: 1,)一组元组中支持多个元素; 2,)一组元组中可以包含不同类型的元素; 3,)返回下标从_1开始。 Array 数组 var items=Array(1,2,3,4) Map key,value…
通过例子学习spark rdd
本文通过一个例子简单介绍下spark的rdd的数据处理。 这是一个网站文章的阅读日志,存放在hdfs://tmp/log/fileread.log中。 时间、语言、标题、次数、总字数 20090505-000000 cn…
由Dataflow模型聊Flink和Spark
文章如约而至。这是一篇对Dataflow模型的回顾和小小的总结,并以Spark和Flink为例,简单地描述Dataflow模型是如何影响Spark和Flink对于流的设计和实现。对Dataflow模型有疑惑的读者可以先阅…
pyspark系列--pyspark读写dataframe
pyspark读写dataframe 1. 连接spark 2. 创建dataframe 2.1. 从变量创建 2.2. 从变量创建 2.3. 读取json 2.4. 读取csv 2.5. 读取MySQL 2.6. 从p…
Python中使用gflags
安装命令pip install python-gflags 使用示例: import gflags FLAGS = gflags.FLAGS gflags.DEFINE_string('name', 'ming', 't…
python库--pandas--文本文件读取
.read_table() / read_csv() filepath_or_buffer 文件路径 sep=’\t’ 分隔符. 设置为N, 将尝试自动确定 delimiter=…
用Spark学习FP Tree算法和PrefixSpan算法
在FP Tree算法原理总结和PrefixSpan算法原理总结中,我们对FP Tree和PrefixSpan这两种关联算法的原理做了总结,这里就从实践的角度介绍如何使用这两个算法。由于scikit-learn中没…
Spark Streaming--实战篇
摘要: Sprak Streaming属于Saprk API的扩展,支持实时数据流(live data streams)的可扩展,高吞吐(hight-throughput) 容错(…
spark在集群上运行
1.spark在集群上运行应用的详细过程 (1)用户通过spark-submit脚本提交应用 (2)spark-submit脚本启动驱动器程序,调用用户定义的main()方法 (3)驱动器程序与集群管理器通信,申请资源以…