分类：Spark

Spark的广播变量机制

Spark广播变量什么是广播变量？在同一个Execute共享同一份计算逻辑的变量广播变量使用场景我现在要在在这些内容中过滤java和object-c 过滤内容使用广播变量过滤代码逻辑： package com.…

zeppelin 为交互式分析查询提供了可视化界面。在zeppelin上使用spark NoteBook，有spark和livy两种方式。软件版本 zeppelin版本：从zeppelin-master编译(已发布0…

转载请注明 : [过把火] https://www.jianshu.com/p/29d17aa23116 序一直都没有很系统地阅读过RDD的原始论文，最近翻出来研读一遍，并作此记录。《Resilient Distri…

1.scala中private 与 private[this] 修饰符的区别？ private[包名],private[this] 可以放在字段，方法和类上，用来限制访问权限； private[包名] 包名可以是父包名或…

1、数据处理加工模型（1）输入：文件，数据库，消息队列（2）处理：函数，sql，mapreduce，bolt，transform/action （3）输出：文件，数据库 2、spark简介 spark与hadoop开…

七十年代时，有一长辈连练铁砂掌，功夫成了之后，可以掌断五砖，凌空碎砖，威风得不得了。时至八十年代，只能掌断三砖。到九十年代只能一砖一砖的断了。他说，一直以为功力退步了，后来才知道烧砖的配方改了。数据压缩前言前两篇将…

Spark Streaming是将流式计算分解成一系列短小的批处理作业。这里的批处理引擎是Spark，也就是把Spark Streaming的输入数据按照batch size（如1秒）分成一段一段的数据（Discreti…

在大量数据中对一些字段进行关联。举例 ipTable：需要进行关联的几千条ip数据(70k) hist：历史数据（百亿级别）直接join将会对所有数据进行shuffle，需要大量的io操作，相同的key会在同一个pa…

本文记录了利用Scala和Java两种语言来实现先分组，然后取每个分组的TopN。 1.文本内容 class1 90 class2 56 class1 87 class1 76 class2 88 class1 95 c…

前言： Spark 概念 Spark是UC Berkeley AMP lab开发的一个集群计算的框架，类似于Hadoop，但有很多的区别（详细见推荐阅读材料）。最大的优化是让计算任务的中间结果可以存储在内存中，不需要每次…

前言上篇写了 Spark Shuffle 内存分析后,有不少人提出了疑问，大家也对如何落文件挺感兴趣的，所以这篇文章会详细介绍，Sort Based Shuffle Write 阶段是如何进行落磁盘的流程分析入口…

/** Return a new RDD by first applying a function to all elements of this RDD, and then flattening the results…