星星之火,可以燎原 Spark简介 Spark是一个开源的计算框架平台,使用该平台,数据分析程序可自动分发到集群中的不同机器中,以解决大规模数据快速计算的问题,同时它还向上提供一个优雅的编程范式,使得数据分析人员通过编写…
标签:spark
Waterdrop推动Spark Structured Streaming 走向生产环境
前言 StructuredStreaming是Spark 2.0以后新开放的一个模块,相比SparkStreaming,它有一些比较突出的优点: 它能做到更低的延迟; 可以做实时的聚合,例如实时计算每天每个商品的销售总额…
【大数据】计算引擎之二:数据处理三种类型
在深入介绍不同实现的指标和结论之前,首先需要对不同处理类型的概念进行一个简单的介绍。 1.批处理系统 批处理在大数据世界有着悠久的历史。批处理主要操作大容量静态数据集,并在计算过程完成后返回结果。 批处理模式中使…
Spark LDA实战
选取了10个文档,其中4个来自于一篇论文,3篇来自于一篇新闻,3篇来自于另一篇新闻。 首先在pom文件中加入mysql-connector-java: <dependency> <grou…
Spark partitionBy
partitionBy 重新分区, repartition默认采用HashPartitioner分区,自己设计合理的分区方法(比如数量比较大的key 加个随机数 随机分到更多的分区, 这样处理数据倾斜更彻底一些) /**…
Spark配置参数详解
以下是整理的Spark中的一些配置参数,官方文档请参考Spark Configuration。 Spark提供三个位置用来配置系统: Spark属性:控制大部分的应用程序参数,可以用SparkConf对象或…
Spark-shell引入第三方包
Spark-shell引入第三方包 如何引入 spark-shell –jars path/nscala-time_2.10-2.12.0.jar 若有多个jar包需要导入,中间用逗号隔开即可。 scala …
Spark性能调优之合理设置并行度
Spark性能调优之合理设置并行度 1.Spark的并行度指的是什么? spark作业中,各个stage的task的数量,也就代表了spark作业在各个阶段stage…
Tuple,Array,Map,文件操作
Tuple是一个元组: 1,)一组元组中支持多个元素; 2,)一组元组中可以包含不同类型的元素; 3,)返回下标从_1开始。 Array 数组 var items=Array(1,2,3,4) Map key,value…
通过例子学习spark rdd
本文通过一个例子简单介绍下spark的rdd的数据处理。 这是一个网站文章的阅读日志,存放在hdfs://tmp/log/fileread.log中。 时间、语言、标题、次数、总字数 20090505-000000 cn…
由Dataflow模型聊Flink和Spark
文章如约而至。这是一篇对Dataflow模型的回顾和小小的总结,并以Spark和Flink为例,简单地描述Dataflow模型是如何影响Spark和Flink对于流的设计和实现。对Dataflow模型有疑惑的读者可以先阅…
pyspark系列--pyspark读写dataframe
pyspark读写dataframe 1. 连接spark 2. 创建dataframe 2.1. 从变量创建 2.2. 从变量创建 2.3. 读取json 2.4. 读取csv 2.5. 读取MySQL 2.6. 从p…