标签：spark

使用阿里云的Maven仓库加速Spark编译过程

前言在国内编译Spark项目需要从Maven源下载很多依赖包，官方源在国内大环境下的下载速度大家都懂得，那个煎熬啊，简直是浪费生命。如果你的下载速度很快，你现在就可以无视这篇文章了。阿里云给国内开发者提供了一个非常…

Tokenizer （分词器）算法介绍： Tokenization将文本划分为独立个体（通常为单词）。 RegexTokenizer基于正则表达式提供更多的划分选项。默认情况下，参数“pattern”为划分文本的分隔符…

读取配置文件，进行文件位置转移在whenb.csv中指定了需要从/home/root/cf/下移除到/home/root/cf_wh/下文件列表，whenb.csv中包含记录如下： enb-19832 enb-2829…

es和spark的集成比较简单, 直接使用内部封装的一些方法即可版本设置说明: https://www.elastic.co/guide/en/elasticsearch/hadoop/current/re…

Spark运行架构： Spark运行架构包括集群资源管理器（Cluster Manager）、运行作业任务的工作节点（Worker Node）、每个应用的任务控制节点（Driver）和每个工作节点上负责具体…

最近好奇的研究了下Spark的BloomFilter的实现，发现其org/apache/spark/util/sketch/BitArray.java对bit处理的实现很巧妙（源码可能是从其他开源项目借鉴的也不好说），从…

Spark 2.3.1 Hadoop 3.0.3 1. 背景 Yarn yarn是一个主从型的计算资源管理系统，包含一个ResourceManager和多个NodeManager。其中ResourceManager负责整…

在配置spark环境的时候出现两个问题： pom.xml文件如下： <?xml version=”1.0″ encoding=”UTF-8″?><proj…

spark 1.5.1是支持直接读取gz格式的压缩包的，和普通文件没有什么区别：使用spark-shell进入spark shell 交互界面：输入命令： sc.textFile("\huawei\mr\201611…

datafrane进阶 1. 分组统计 2. join 操作 3. 缺失值处理 4. 空值判断 5. 缺失值处理 6. 离群点 7. 重复值 8. 生成新列 9. 类eval操作 10. 行的最大最小值 11. when…

Spark系列文章（一）:Spark初识作者：studytime 原文： https://www.studytime.xin/ 什么是Spark 官网地址：http://spark.apache.org/ spark …

测试数据 sparkStu.text zhangxs 24 chenxy wangYr 21 teacher wangx 26 teacher sparksql { "name":"zhangxs","age":24,"…