SparkStreaming+Kafka SparkStreaming整合Kafka有两种方式,一种是基于接收器的方法,另一种是直接方法(无接收器)。 Receiver方式:由Spark executors中的Recei…
分类:Spark
Spark(十八)JVM调优之原理概述以及降低cache操作的内存占比
一、调优背景 1、常规性能调优:分配资源、并行度。。。等 2、JVM调优(Java虚拟机):JVM相关的参数,通常情况下,如果你的硬件配置、基础的JVM的配置,都ok的话,JVM通常不会造成太严重的性能问题;反而更多的是…
第8章 Spark Streaming进阶与案例实战
第8章 Spark Streaming进阶与案例实战 本章节将讲解Spark Streaming如何处理带状态的数据,通过案例让大家知道Spark Streaming如何写数据到MySQL,Spark Streaming…
Spark 作业执行
Spark基本组件,Master和Worker,负责运行Client和Driver 作业执行框架 每个SparkApplication由主控节点Master、集群资源管理节点ClusterManager、执行任务节点Wo…
SPARK[RDD之partitions]
RDD是容错、并行的数据结构,具备分区的属性,这个分区可以是单机上分区也可以是多机上的分区,对于RDD分区的数量涉及到这个RDD进行并发计算的粒度。每一个分区都会在一个单独的task中执行。 可以为其指定分区个数,如果从…
spark是什么
hadoop有文件系统HDFS,还有用来调度任务的YARN。而SPARK可以在YARN上开一个APPLICATION,然后提交一些JOB上去。 首先启动hadoop的hdfs和yarn,如下:start-dfs.shst…
深入理解Spark 2.1 Core (七):任务执行的原理与源码分析
上篇博文《深入理解Spark 2.1 Core (六):资源调度的实现与源码分析》中我们讲解了,AppClient和Executor是如何启动,如何为逻辑上与物理上的资源调度,以及分析了在Spark1.4之前逻辑上资源调…
平安产险内部推荐-数据测试等
平安产险内部推荐-数据测试等 1、负责大数据相关产品和平台测试,制定大数据产品的测试流程规范,完善数据质量保障体系。 2、负责大数据相关测试工具平台的开发,或者业界相关开源工具的引进。 3、负责大数据测试团队的建设和发展…
提高spark任务稳定性1 - Blacklist 机制
场景 一个 spark 应用的产生过程: 获取需求 -> 编写spark代码 -> 测试通过 -> 扔上平台调度。 往往应用会正常运行一段时间,突然有一天运行失败,或是失败了一次才运行成功。 从开发者的…
如何入手Spark?
Spark 概述 Apache Spark是一个快速和通用的集群计算系统。它提供Java,scala,Python、R语言的APIs,以及支持一般执行图形的优化引擎。 它还支持一组丰富的高级工具,包括用于SQL和结构化数…
spark-Streaming
总结一下,避免后面再重复踩坑。 Spark Streaming是近实时(near real time)的小批处理系统, 可以对接各类消息中间或者直接监控Hdfs目录, 可以做为实时大数据流式计算,也可以做一些按时间窗口的…
Spark作业基本运行原理
调优概述 在开发完Spark作业之后,就该为作业配置合适的资源了。Spark的资源参数,基本都可以在spark-submit命令中作为参数设置。很多Spark初学者,通常不知道该设置哪些必要的参数,以及如何设置这些参数,…