Word Count是经典的入门程序。今天讲如何在控制台里实现。 控制台方式 打开终端,输入如下命令启动Scala Spark spark-shell 数据准备 一般是从文本文件里读取。这里为了考虑测试方便,直接从sca…
分类:Spark
Spark强大的函数扩展功能
在数据分析领域中,没有人能预见所有的数据运算,以至于将它们都内置好,一切准备完好,用户只需要考虑用,万事大吉。扩展性是一个平台的生存之本,一个封闭的平台如何能够拥抱变化?在对数据进行分析时,无论是算法也好,分析逻辑也罢,…
spark读parquet目录遇到的元数据文件不完整的问题
有个在线系统,Spark1.6.3,有一个spark streaming程序定期产生一个parquet目录, 后面一个spark定期批处理检测目录下_SUCCESS文件是否生成结束,然后读入dataframe处理。 大部…
Spark源码分析之Spark-submit和Spark-class
有了前面spark-shell的经验,看这两个脚本就容易多啦。前面总结的Spark-shell的分析可以参考: Spark源码分析之Spark Shell(上) Spark源码分析之Spark Shell(下) Spar…
python生成时间序列(date_range)
介绍 自己写了一个用python内置模块实现的生成时间序列的函数 支持自动推断字符串到datetime的转换, 但对格式有一定要求, 其它格式可手动指定格式化方式, 格式化方式与python内置格式化格式完全一致 支持输…
Spark学习之JavaRdd
RDD 介绍 RDD,全称Resilient Distributed Datasets(弹性分布式数据集),是Spark最为核心的概念,是Spark对数据的抽象。RDD是分布式的元素集合,每个RDD只支持读操作,且每个R…
Spark 1.6升级2.x防踩坑指南
原创文章,谢绝转载 Spark 2.x自2.0.0发布到目前的2.2.0已经有一年多的时间了,2.x宣称有诸多的性能改进,相信不少使用Spark的同学还停留在1.6.x或者更低的版本上,没有升级到2.x或许是由于1.6相…
spark--环境搭建--5.kafka_292-081集群搭建
1. scala安装 $ cd /usr/local $ tar -zxvf scala-2.11.4.tgz $ mv scala-2.11.4 scala $ vi ~/.bashrc export SCALA_HO…
PySpark使用小结(三)
在集群上提交pyspark脚本,如果是多个py脚本之间有相互依赖关系,需要将所有脚本打包为.egg文件,然后用一个.py主脚本来调用这些文件。提交的时候同时提交.egg文件和.py文件。 将多个文件.py文件打包为一个.…
Hive:org.apache.hadoop.hdfs.protocol.NSQuotaExceededException: The NameSpace quota (directories and files) of directory /mydir is exceeded: quota=100000 file count=100001
集群中遇到了文件个数超出限制的错误: 0)昨天晚上spark 任务突然抛出了异常:org.apache.hadoop.hdfs.protocol.NSQuotaExceededException: The NameSpa…
Spark2.x(五十六):Queue's AM resource limit exceeded.
背景: 按照业务需求将数据拆分为60份,启动60个application分别运行对每一份数据,application的提交脚本如下: #/bin/sh #LANG=zh_CN.utf8 #export LANG expo…
Python操作hdfs
Python直接操作hdfs,包括追加数据文件到hdfs文件 #!coding:utf-8 import sys from hdfs.client import Client #设置utf-8模式 reload(sys)…