spark dataframe派生于RDD类,但是提供了非常强大的数据操作功能。当然主要对类SQL的支持。 在实际工作中会遇到这样的情况,主要是会进行两个数据集的筛选、合并,重新入库。 首先加载数据集,然后在提取数据集的…
分类:Spark
Spark篇之转换算子
一、前述 Spark中默认有两大类算子,Transformation(转换算子),懒执行。action算子,立即执行,有一个action算子 ,就有一个job。 通俗些来说由RDD变成RDD就是Transformatio…
数据清洗(1)-- 使用 Spark 和 Edit Distance 去重合并
需求和场景: 某些数据字段会出现不同的值,比如以下数据 上海白玉兰计算机有限公司 上海市白玉兰计算机有限公司 中国科学院广州地化学研究所 中国科学院广州地球化学研究所 中国科学院广州地球化学研究所 中国科学院广州地化学研…
端到端一致性,流系统Spark/Flink/Kafka/DataFlow对比总结(压箱宝具呕血之作)
收藏数已经是赞数的2倍多了… 麻烦至少收藏的同学点一下赞…(码字,查资料,整理文档实属不易; 望赞使其扩散到需要它的人眼前) 长文预警, 全文两万五千多字, 37页word文档的长度; 题图: 分…
spark-sql createOrReplaceTempView 和createGlobalTempView区别
在讲解 createOrReplaceTempView 和createGlobalTempView的区别前,先了解下Spark Application 和 Spark Session区…
大疆入门无人机香不香?历时两年的DJI Spark评测!
转自Bilibili 作为一台在17年6月发布的便携式无人机,Spark是相当成功的,一经发布成功吊打了当时三千至四千价位的所有竞品。虽然使用了塑料材质的外壳,但依旧具有品质感;主体为灰色,顶盖部分可以选择多种颜色,红,…
spark执行map-join优化
在使用map reduce处理数据的时候,join操作有两种选择:一种选择是在map端执行join操作,即所谓的Map-side Join(Broadcast join);另一种选择是在reduce端执行join操作,即…
使用sbt编译Spark子项目
前言 最近为了解决Spark2.1的Bug,对Spark的源码做了不少修改,需要对修改的代码做编译测试,如果编译整个Spark项目快的话,也得半小时左右,所以基本上是改了哪个子项目就单独对那个项目编译打包。 Spark官…
Hadoop、Spark等5种大数据框架对比,你的项目该用哪种?
简介 大数据是收集、整理、处理大容量数据集,并从中获得见解所需的非传统战略和技术的总称。虽然处理数据所需的计算能力或存储容量早已超过一台计算机的上限,但这种计算类型的普遍性、规模,以及价值在最近几年才经历了大规模扩展。 …
[转] Spark sql 内置配置(V2.2)
【From】 https://blog.csdn.net/u010990043/article/details/82842995 最近整理了一下spark SQL内置配。加粗配置项是对…
spark-sql cli 参数 及使用
很难找到spark-sql cli使用的教程,总结下一、启动方法/data/spark-1.4.0-bin-cdh4/bin/spark-sql --master spark://master:7077 --total-…
SparkSession - Spark SQL 的 入口
SparkSession – Spark SQL 的 入口 翻译自:https://jaceklaskowski.gitbooks.io/mastering-apache-spark/content/spar…