分类：Spark

Spark程序的配置

Spark Application’s Configuration 提示：有关如何配置Spark和用户程序的详细信息，请参阅官方文档中的Spark Configuration。必要参数在Spark应用程序运行之前，必…

spark中的collect操作是将远程数据通过网络传输到本地，如果数据量特别大的话，会造成很大的网络压力，更为严重的问题是会造成driver端的内存溢出。 foreach是依次遍历远程集群上的RDD中的元素。colle…

平安产险内部推荐-数据测试等 1、负责大数据相关产品和平台测试，制定大数据产品的测试流程规范，完善数据质量保障体系。 2、负责大数据相关测试工具平台的开发，或者业界相关开源工具的引进。 3、负责大数据测试团队的建设和发展…

*Spark Spark 函数 Spark (Python版) 零基础学习笔记（一）—— 快速入门 1.map与flatMap 的区别; 使用map产生的 list 是分层的，第一层是 List 文件文本的第一行，第二层…

前言中午的时候看到了Spark团队新作MLFlow，因为我本身也在做类似的解决方案MLSQL,自然要看看Meitai是怎么做的。所以第一时间把MLFlow相关文档浏览了一遍，并且将MLFlow源码 clone下来大致…

本文简要介绍一下Spark。首先通过交互式shell介绍Spark API，然后是如何使用Scala编写应用程序。要注意的是，Spark 2.0之前，Spark的主要编程接口是弹性分布式数据集（RDD）。而Spark …

大家刚开始用Spark Streaming时，心里肯定嘀咕，对于一个7*24小时运行的数据，cache住的RDD,broadcast 系统会帮忙自己清理掉么？还是说必须自己做清理？如果系统帮忙清理的话，机制是啥？前言 …

综述其实Spark的构建已经做得很好了，但是由于大家已知的原因，很多东西不能很顺利的拿到。估计你要给老外说花了很多时间在build Spark上面，他只有一个反应“unbelievable”。在这里特别要感谢一下OS…

在我司的风电大数据项目中，出现了一个报错比如 Job aborted due to stage failure: Task 2 in stage 111.0 failed 4 times, most recent fa…

统计地区人数提取出第四个字段，然后是一个wordcount程序；具体代码 package io.github.sparktrain import org.apache.spark.{SparkConf, SparkC…

Dstream 是一个 rdd的队列。当spark stream 窗口函数的间隔不是batchDuration的倍数时会报错。 Exception in thread "main" java.lang.Exceptio…

3.5 容错机制及依赖一般而言，对于分布式系统，数据集的容错性通常有两种方式： 1）数据检查点（在Spark中对应Checkpoint机制）。 2）记录数据的更新（在Spark中对应Lineage血统机制）。对于大数…