读取配置文件,进行文件位置转移 在whenb.csv中指定了需要从/home/root/cf/下移除到/home/root/cf_wh/下文件列表,whenb.csv中包含记录如下: enb-19832 enb-2829…
分类:Spark
es-09-spark集成
es和spark的集成比较简单, 直接使用内部封装的一些方法即可 版本设置说明: https://www.elastic.co/guide/en/elasticsearch/hadoop/current/re…
Spark core基础 -- 基本架构和RDD
Spark运行架构: Spark运行架构包括集群资源管理器(Cluster Manager)、运行作业任务的工作节点(Worker Node)、每个应用的任务控制节点(Driver)和每个工作节点上负责具体…
Spark之BloomFilter有趣的bitwise运算
最近好奇的研究了下Spark的BloomFilter的实现,发现其org/apache/spark/util/sketch/BitArray.java对bit处理的实现很巧妙(源码可能是从其他开源项目借鉴的也不好说),从…
Spark on Yarn内存设置
Spark 2.3.1 Hadoop 3.0.3 1. 背景 Yarn yarn是一个主从型的计算资源管理系统,包含一个ResourceManager和多个NodeManager。其中ResourceManager负责整…
Spark:读取hdfs gz压缩包
spark 1.5.1是支持直接读取gz格式的压缩包的,和普通文件没有什么区别: 使用spark-shell进入spark shell 交互界面: 输入命令: sc.textFile("\huawei\mr\201611…
pyspark系列--datafrane进阶
datafrane进阶 1. 分组统计 2. join 操作 3. 缺失值处理 4. 空值判断 5. 缺失值处理 6. 离群点 7. 重复值 8. 生成新列 9. 类eval操作 10. 行的最大最小值 11. when…
Spark系列文章(一):Spark初识
Spark系列文章(一):Spark初识 作者:studytime 原文: https://www.studytime.xin/ 什么是Spark 官网地址:http://spark.apache.org/ spark …
spark sql的简单操作
测试数据 sparkStu.text zhangxs 24 chenxy wangYr 21 teacher wangx 26 teacher sparksql { "name":"zhangxs","age":24,"…
IE10,IE11下cookie无法写入问题
asp.net 4.0的程序,发布后,测试在ie6,ie7,ie8,ie9下均可以正常登录,但是在ie10,ie11下就是无法保存cookie,排查了一下是否ie10,ie11是否存在设置问题发下并不是。 从别人的解决方…
spark与kafka集成
本文转载至Spark踩坑记–Spark Streaming+Kafka 前言 在WeTest舆情项目中,需要对每天千万级的游戏评论信息进行词频统计,在生产者一端,我们将数据按照每天的拉取时间存入了Kafka当…
pyspark系列--统计基础
统计基础 1. 简单统计 2. 随机数 3. 四舍五入 4. 抽样 5. 描述性统计 6. 最大值最小值 7. 均值方差 8. 协方差与相关系数 9. 交叉表(列联表) 10. 频繁项目元素 11. 其他数学函数 11.…