前言 在国内编译Spark项目需要从Maven源下载很多依赖包,官方源在国内大环境下的下载速度大家都懂得,那个煎熬啊,简直是浪费生命。 如果你的下载速度很快,你现在就可以无视这篇文章了。 阿里云给国内开发者提供了一个非常…
标签:spark
Spark MLlib 数据预处理-特征变换(一)
Tokenizer (分词器) 算法介绍: Tokenization将文本划分为独立个体(通常为单词)。 RegexTokenizer基于正则表达式提供更多的划分选项。默认情况下,参数“pattern”为划分文本的分隔符…
Linux Shell:根据指定的文件列表 或 map配置,进行文件位置转移
读取配置文件,进行文件位置转移 在whenb.csv中指定了需要从/home/root/cf/下移除到/home/root/cf_wh/下文件列表,whenb.csv中包含记录如下: enb-19832 enb-2829…
es-09-spark集成
es和spark的集成比较简单, 直接使用内部封装的一些方法即可 版本设置说明: https://www.elastic.co/guide/en/elasticsearch/hadoop/current/re…
Spark core基础 -- 基本架构和RDD
Spark运行架构: Spark运行架构包括集群资源管理器(Cluster Manager)、运行作业任务的工作节点(Worker Node)、每个应用的任务控制节点(Driver)和每个工作节点上负责具体…
Spark之BloomFilter有趣的bitwise运算
最近好奇的研究了下Spark的BloomFilter的实现,发现其org/apache/spark/util/sketch/BitArray.java对bit处理的实现很巧妙(源码可能是从其他开源项目借鉴的也不好说),从…
Spark on Yarn内存设置
Spark 2.3.1 Hadoop 3.0.3 1. 背景 Yarn yarn是一个主从型的计算资源管理系统,包含一个ResourceManager和多个NodeManager。其中ResourceManager负责整…
intellij idea 配置spark环境遇到的两个问题
在配置spark环境的时候出现两个问题: pom.xml文件如下: <?xml version=”1.0″ encoding=”UTF-8″?><proj…
Spark:读取hdfs gz压缩包
spark 1.5.1是支持直接读取gz格式的压缩包的,和普通文件没有什么区别: 使用spark-shell进入spark shell 交互界面: 输入命令: sc.textFile("\huawei\mr\201611…
pyspark系列--datafrane进阶
datafrane进阶 1. 分组统计 2. join 操作 3. 缺失值处理 4. 空值判断 5. 缺失值处理 6. 离群点 7. 重复值 8. 生成新列 9. 类eval操作 10. 行的最大最小值 11. when…
Spark系列文章(一):Spark初识
Spark系列文章(一):Spark初识 作者:studytime 原文: https://www.studytime.xin/ 什么是Spark 官网地址:http://spark.apache.org/ spark …
spark sql的简单操作
测试数据 sparkStu.text zhangxs 24 chenxy wangYr 21 teacher wangx 26 teacher sparksql { "name":"zhangxs","age":24,"…