标签：spark

Spark入门

星星之火，可以燎原 Spark简介 Spark是一个开源的计算框架平台，使用该平台，数据分析程序可自动分发到集群中的不同机器中，以解决大规模数据快速计算的问题，同时它还向上提供一个优雅的编程范式，使得数据分析人员通过编写…

前言 StructuredStreaming是Spark 2.0以后新开放的一个模块，相比SparkStreaming，它有一些比较突出的优点：它能做到更低的延迟; 可以做实时的聚合，例如实时计算每天每个商品的销售总额…

在深入介绍不同实现的指标和结论之前，首先需要对不同处理类型的概念进行一个简单的介绍。 1.批处理系统　　批处理在大数据世界有着悠久的历史。批处理主要操作大容量静态数据集，并在计算过程完成后返回结果。　　批处理模式中使…

选取了10个文档，其中4个来自于一篇论文，3篇来自于一篇新闻，3篇来自于另一篇新闻。首先在pom文件中加入mysql-connector-java： <dependency> <grou…

partitionBy 重新分区， repartition默认采用HashPartitioner分区，自己设计合理的分区方法(比如数量比较大的key 加个随机数随机分到更多的分区，这样处理数据倾斜更彻底一些) /**…

以下是整理的Spark中的一些配置参数，官方文档请参考Spark Configuration。 Spark提供三个位置用来配置系统： Spark属性：控制大部分的应用程序参数，可以用SparkConf对象或…

Spark-shell引入第三方包如何引入 spark-shell –jars path/nscala-time_2.10-2.12.0.jar 若有多个jar包需要导入，中间用逗号隔开即可。 scala …

Spark性能调优之合理设置并行度 1.Spark的并行度指的是什么？ spark作业中，各个stage的task的数量，也就代表了spark作业在各个阶段stage…

Tuple是一个元组： 1，）一组元组中支持多个元素； 2，）一组元组中可以包含不同类型的元素； 3，）返回下标从_1开始。 Array 数组 var items=Array(1,2,3,4) Map key，value…

本文通过一个例子简单介绍下spark的rdd的数据处理。这是一个网站文章的阅读日志，存放在hdfs://tmp/log/fileread.log中。时间、语言、标题、次数、总字数 20090505-000000 cn…

文章如约而至。这是一篇对Dataflow模型的回顾和小小的总结，并以Spark和Flink为例，简单地描述Dataflow模型是如何影响Spark和Flink对于流的设计和实现。对Dataflow模型有疑惑的读者可以先阅…

pyspark读写dataframe 1. 连接spark 2. 创建dataframe 2.1. 从变量创建 2.2. 从变量创建 2.3. 读取json 2.4. 读取csv 2.5. 读取MySQL 2.6. 从p…