分类：Spark

Spark读写压缩文件

一、压缩文件读取 spark 自动根据文件后缀名判断压缩格式，不用特别指定二、写文件时压缩 spark会加载Hadoop的默认的配置，如果hadoop中设置了压缩，spark没指定压缩则会用hadoop的配置方式压缩…

数据读取与保存到目前为止，所展示的示例都是从本地集合或者普通文件中进行数据读取和保存的。但有时候，数据量可能大到无法放在一台机器中，这时就需要探索别的数据读取和保存的方法了。 Spark支持以下三种主要数据源：1. 文…

基于优化和数据的有序性等问题考虑，某个设备的日志数据分到指定的计算节点，减少数据的网络传输我们都知道Spark内部提供了HashPartitioner和RangePartitioner两种分区策略，这两种分区策略在很多…

学习 Spark Streaming 的重要性 – andyshar的博客 – 博客频道 – CSDN.NET http://blog.csdn.net/andyshar/articl…

倾情大奉送–Spark入门实战系列 – shishanyuan – 博客园 http://www.cnblogs.com/shishanyuan/p/4699644.html 这一两年…

事由上周工作中遇到一个bug，现象是一个spark streaming的job会不定期地hang住，不退出也不继续运行。这个job经是用pyspark写的，以kafka为数据源，会在每个batch结束时将统计结果写入m…

Spark MLlib机器学习开发指南(7)–特征转换–Tokenizer 翻译自Tokenizer,基于最新2.2.0版本翻译,转载注明出处 xcrossed 机器学习 Tokenizer To…

有两种创建StreamingContext的方式： val conf = new SparkConf().setAppName(appName).setMaster(master); val ssc = new Stre…

Motivation 最近有项目用到Scikit-learn上的高斯朴素贝叶斯模型（简称GNB），随着数据量增大，单机上跑GNB肯定会很慢，所以打算转Spark上。然后发现MLlib并没有实现GNB，自己动手，丰衣足食～…

Accept timed out 异常堆栈 18/07/13 23:14:35 ERROR PythonRDD: Error while sending iterator java.net.SocketTimeoutEx…

一、环境部署 hadoop集群2.7.1 flume 1.7.0 spark集群：spark-2.0.1-bin-hadoop2.7.tgz 环境搭建可参考我前面几篇文章。不再赘述三台机器：master，slave1,…

Spark 1.6发布后，官方声称流式状态管理有10倍性能提升。这篇文章会详细介绍Spark Streaming里新的流式状态管理。关于状态管理在流式计算中，数据是持续不断来的，有时候我们要对一些数据做跨周期(Dur…