平安产险内部推荐-数据测试等 1、负责大数据相关产品和平台测试,制定大数据产品的测试流程规范,完善数据质量保障体系。 2、负责大数据相关测试工具平台的开发,或者业界相关开源工具的引进。 3、负责大数据测试团队的建设和发展…
提高spark任务稳定性1 - Blacklist 机制
场景 一个 spark 应用的产生过程: 获取需求 -> 编写spark代码 -> 测试通过 -> 扔上平台调度。 往往应用会正常运行一段时间,突然有一天运行失败,或是失败了一次才运行成功。 从开发者的…
如何入手Spark?
Spark 概述 Apache Spark是一个快速和通用的集群计算系统。它提供Java,scala,Python、R语言的APIs,以及支持一般执行图形的优化引擎。 它还支持一组丰富的高级工具,包括用于SQL和结构化数…
spark-Streaming
总结一下,避免后面再重复踩坑。 Spark Streaming是近实时(near real time)的小批处理系统, 可以对接各类消息中间或者直接监控Hdfs目录, 可以做为实时大数据流式计算,也可以做一些按时间窗口的…
Spark作业基本运行原理
调优概述 在开发完Spark作业之后,就该为作业配置合适的资源了。Spark的资源参数,基本都可以在spark-submit命令中作为参数设置。很多Spark初学者,通常不知道该设置哪些必要的参数,以及如何设置这些参数,…
hadoop+spark 整合
zookeeper安装 zookeeper3.4.6安装 spark高可用安装完成 spark高可用安装 hadoop安装 hadoop安装 整合hadoop+spark 配置spark+hadoop HADOOP_CO…
Spark源码解析之Shuffle Writer
摘要:Shuffle是MapReduce编程模型中最耗时的一个步骤,而Spark将Shuffle过程分解成了Shuffle Write和Shuffle Read两个过程,本文我们将详细解读Spark的Shuffle Wr…
[Spark源码剖析] JobWaiter
职责 等待DAGScheduler job完成,一个JobWaiter对象与一个job唯一一一对应 一旦task完成,将该task结果填充到SparkContext.runJob创建的results数组中 构造函数 pr…
Spark Streaming 原理剖析
通过源码呈现 Spark Streaming 的底层机制。 1. 初始化与接收数据 Spark Streaming 通过分布在各个节点上的接收器,缓存接收到的流数据,并将流数 据 包 装 成 Spark 能 够 处 理…
spark的设计与运行原理
一、Spark简介 spark的特点 (1) 运行速度快 使用DAG执行引擎以支持循环数据流与内存计算 (2) 容易使用 支持使用Scala、Java、Python和R语言进行编程,可以通过Spark Shell 进行交…
SparkStreaming+Kafka 实现统计基于缓存的实时uv
我的原创地址:https://dongkelun.com/2018/06/25/KafkaUV/ 前言 本文利用SparkStreaming+Kafka实现实时的统计uv,即独立访客,一个用户一天内访问多次算一次,这个看…
Spark(四十二)数据倾斜解决方案之使用随机数以及扩容表进行join
一、背景 当采用随机数和扩容表进行join解决数据倾斜的时候,就代表着,你的之前的数据倾斜的解决方案,都没法使用。 这个方案是没办法彻底解决数据倾斜的,更多的,是一种对数据倾斜的缓解。 原理,其实在上一讲,已经带出来了。…