Spark广播变量 什么是广播变量? 在同一个Execute共享同一份计算逻辑的变量 广播变量使用场景 我现在要在在这些内容中过滤java和object-c 过滤内容 使用广播变量过滤代码逻辑: package com.…
分类:Spark
Spark & Zeppelin
zeppelin 为交互式分析查询提供了可视化界面。 在zeppelin上使用spark NoteBook,有spark和livy两种方式。 软件版本 zeppelin版本:从zeppelin-master编译(已发布0…
Spark-RDD原始论文阅读及摘抄
转载请注明 : [过把火] https://www.jianshu.com/p/29d17aa23116 序 一直都没有很系统地阅读过RDD的原始论文,最近翻出来研读一遍,并作此记录。 《Resilient Distri…
spark题05
1.scala中private 与 private[this] 修饰符的区别? private[包名],private[this] 可以放在字段,方法和类上,用来限制访问权限; private[包名] 包名可以是父包名或…
spark streaming 实时日志清洗和统计
1、数据处理加工模型 (1)输入:文件,数据库,消息队列 (2)处理:函数,sql,mapreduce,bolt,transform/action (3)输出:文件,数据库 2、spark简介 spark与hadoop开…
Spark与Apache Parquet
七十年代时,有一长辈连练铁砂掌,功夫成了之后,可以掌断五砖,凌空碎砖,威风得不得了。时至八十年代,只能掌断三砖。到九十年代只能一砖一砖的断了。他说,一直以为功力退步了,后来才知道烧砖的配方改了。 数据压缩 前言 前两篇将…
spark streaming
Spark Streaming是将流式计算分解成一系列短小的批处理作业。这里的批处理引擎是Spark,也就是把Spark Streaming的输入数据按照batch size(如1秒)分成一段一段的数据(Discreti…
spark broadcast join优化
在大量数据中对一些字段进行关联。 举例 ipTable:需要进行关联的几千条ip数据(70k) hist:历史数据(百亿级别) 直接join将会对所有数据进行shuffle,需要大量的io操作,相同的key会在同一个pa…
Spark分组取TopN
本文记录了利用Scala和Java两种语言来实现先分组,然后取每个分组的TopN。 1.文本内容 class1 90 class2 56 class1 87 class1 76 class2 88 class1 95 c…
20个Spark实战项目列表
前言: Spark 概念 Spark是UC Berkeley AMP lab开发的一个集群计算的框架,类似于Hadoop,但有很多的区别(详细见推荐阅读材料)。最大的优化是让计算任务的中间结果可以存储在内存中,不需要每次…
Spark Shuffle Write阶段磁盘文件分析
前言 上篇写了 Spark Shuffle 内存分析 后,有不少人提出了疑问,大家也对如何落文件挺感兴趣的,所以这篇文章会详细介绍,Sort Based Shuffle Write 阶段是如何进行落磁盘的 流程分析 入口…
spark flatMap 使用
/** Return a new RDD by first applying a function to all elements of this RDD, and then flattening the results…