1. scala安装 $ cd /usr/local $ tar -zxvf scala-2.11.4.tgz $ mv scala-2.11.4 scala $ vi ~/.bashrc export SCALA_HO…
标签:spark
PySpark使用小结(三)
在集群上提交pyspark脚本,如果是多个py脚本之间有相互依赖关系,需要将所有脚本打包为.egg文件,然后用一个.py主脚本来调用这些文件。提交的时候同时提交.egg文件和.py文件。 将多个文件.py文件打包为一个.…
Hive:org.apache.hadoop.hdfs.protocol.NSQuotaExceededException: The NameSpace quota (directories and files) of directory /mydir is exceeded: quota=100000 file count=100001
集群中遇到了文件个数超出限制的错误: 0)昨天晚上spark 任务突然抛出了异常:org.apache.hadoop.hdfs.protocol.NSQuotaExceededException: The NameSpa…
Spark2.x(五十六):Queue's AM resource limit exceeded.
背景: 按照业务需求将数据拆分为60份,启动60个application分别运行对每一份数据,application的提交脚本如下: #/bin/sh #LANG=zh_CN.utf8 #export LANG expo…
Python操作hdfs
Python直接操作hdfs,包括追加数据文件到hdfs文件 #!coding:utf-8 import sys from hdfs.client import Client #设置utf-8模式 reload(sys)…
spark DataFrame 常见操作
spark dataframe派生于RDD类,但是提供了非常强大的数据操作功能。当然主要对类SQL的支持。 在实际工作中会遇到这样的情况,主要是会进行两个数据集的筛选、合并,重新入库。 首先加载数据集,然后在提取数据集的…
Spark篇之转换算子
一、前述 Spark中默认有两大类算子,Transformation(转换算子),懒执行。action算子,立即执行,有一个action算子 ,就有一个job。 通俗些来说由RDD变成RDD就是Transformatio…
数据清洗(1)-- 使用 Spark 和 Edit Distance 去重合并
需求和场景: 某些数据字段会出现不同的值,比如以下数据 上海白玉兰计算机有限公司 上海市白玉兰计算机有限公司 中国科学院广州地化学研究所 中国科学院广州地球化学研究所 中国科学院广州地球化学研究所 中国科学院广州地化学研…
端到端一致性,流系统Spark/Flink/Kafka/DataFlow对比总结(压箱宝具呕血之作)
收藏数已经是赞数的2倍多了… 麻烦至少收藏的同学点一下赞…(码字,查资料,整理文档实属不易; 望赞使其扩散到需要它的人眼前) 长文预警, 全文两万五千多字, 37页word文档的长度; 题图: 分…
spark-sql createOrReplaceTempView 和createGlobalTempView区别
在讲解 createOrReplaceTempView 和createGlobalTempView的区别前,先了解下Spark Application 和 Spark Session区…
大疆入门无人机香不香?历时两年的DJI Spark评测!
转自Bilibili 作为一台在17年6月发布的便携式无人机,Spark是相当成功的,一经发布成功吊打了当时三千至四千价位的所有竞品。虽然使用了塑料材质的外壳,但依旧具有品质感;主体为灰色,顶盖部分可以选择多种颜色,红,…
spark执行map-join优化
在使用map reduce处理数据的时候,join操作有两种选择:一种选择是在map端执行join操作,即所谓的Map-side Join(Broadcast join);另一种选择是在reduce端执行join操作,即…