分类：Spark

Spark 词频统计 – 控制台

Word Count是经典的入门程序。今天讲如何在控制台里实现。控制台方式打开终端，输入如下命令启动Scala Spark spark-shell 数据准备一般是从文本文件里读取。这里为了考虑测试方便，直接从sca…

在数据分析领域中，没有人能预见所有的数据运算，以至于将它们都内置好，一切准备完好，用户只需要考虑用，万事大吉。扩展性是一个平台的生存之本，一个封闭的平台如何能够拥抱变化？在对数据进行分析时，无论是算法也好，分析逻辑也罢，…

有个在线系统，Spark1.6.3，有一个spark streaming程序定期产生一个parquet目录，后面一个spark定期批处理检测目录下_SUCCESS文件是否生成结束，然后读入dataframe处理。大部…

有了前面spark-shell的经验，看这两个脚本就容易多啦。前面总结的Spark-shell的分析可以参考： Spark源码分析之Spark Shell（上） Spark源码分析之Spark Shell（下） Spar…

介绍自己写了一个用python内置模块实现的生成时间序列的函数支持自动推断字符串到datetime的转换, 但对格式有一定要求, 其它格式可手动指定格式化方式, 格式化方式与python内置格式化格式完全一致支持输…

RDD 介绍 RDD，全称Resilient Distributed Datasets（弹性分布式数据集），是Spark最为核心的概念，是Spark对数据的抽象。RDD是分布式的元素集合，每个RDD只支持读操作，且每个R…

原创文章，谢绝转载 Spark 2.x自2.0.0发布到目前的2.2.0已经有一年多的时间了，2.x宣称有诸多的性能改进，相信不少使用Spark的同学还停留在1.6.x或者更低的版本上，没有升级到2.x或许是由于1.6相…

1. scala安装 $ cd /usr/local $ tar -zxvf scala-2.11.4.tgz $ mv scala-2.11.4 scala $ vi ~/.bashrc export SCALA_HO…

在集群上提交pyspark脚本，如果是多个py脚本之间有相互依赖关系，需要将所有脚本打包为.egg文件，然后用一个.py主脚本来调用这些文件。提交的时候同时提交.egg文件和.py文件。将多个文件.py文件打包为一个.…

集群中遇到了文件个数超出限制的错误: 0）昨天晚上spark 任务突然抛出了异常：org.apache.hadoop.hdfs.protocol.NSQuotaExceededException: The NameSpa…

背景：按照业务需求将数据拆分为60份，启动60个application分别运行对每一份数据，application的提交脚本如下： #/bin/sh #LANG=zh_CN.utf8 #export LANG expo…

Python直接操作hdfs,包括追加数据文件到hdfs文件 #!coding:utf-8 import sys from hdfs.client import Client #设置utf-8模式 reload(sys)…