新手很迷茫的一个问题,spark源码中为什么有java scala python代码 当看过源码就会发现,spark框架虽然是scala实现的,但是涉及到内存处理,网络,并发,磁盘io等计算机底层实现还是选择了java实…
分类:Spark
Spark Streaming Crash 如何保证Exactly Once Semantics
这篇文章只是为了阐述Spark Streaming 意外Crash掉后,如何保证Exactly Once Semantics。本来这个是可以直接给出答案的,但是我还是啰嗦的讲了一些东西。 前言 其实这次写Spark St…
Windows下使用Intellij 搭建Spark开发环境
准备工作# 安装JDK 安装scala 2.10.* 下载Intellij IDEA 下载 Spark Pre-build for hadoop 2.6 and later. http://spark.apache.or…
elasticsearch-spark更新文档
先看源码: import org.apache.spark.{SparkConf, SparkContext} import org.elasticsearch.spark._ /** * Created by magn…
Spark TorrentBroadcast
Broadcast 就是将数据从一个节点发送到其他各个节点上去。Spark有两种方式:一种是HttpBroadcast,另一种是TorrentBroadcast。 Driver 端: Driver 先把 data 序列化…
Spark实现列转行
1、列转行 行转列和列转行是我们常用的功能,假如我们有如下的csv文件: +---+----+---------+ |id |name|address | +---+----+---------+ |1 |a |add1…
Spark Streaming 数据接收优化
看这篇文章前,请先移步Spark Streaming 数据产生与导入相关的内存分析, 文章重点讲的是从Kafka消费到数据进入BlockManager的这条线路的分析。 这篇内容是个人的一些经验,大家用的时候还是建议好好…
Spark报错 driver did not authorize commit
启动Spark Speculative后,有时候运行任务会发现如下提示: WARN TaskSetManager: Lost task 55.0 in stage 15.0 (TID 20815, spark047216…
Spark在local模式下运行日志分析
本例以卡特门罗求Pi的计算模型的日志做分析。运行在local模式中,具体代码如下 val conf = new SparkConf().setAppName(“Spark Pi”).setMast…
Spark sc.textFile(...).map(...).count() 执行完整流程
本文介绍下Spark 到底是如何运行sc.TextFile(…).map(….).count() 这种代码的,从driver端到executor端。 引子 今天正好有人在群里问到相关的问题,不过他…
Spark 安装和配置
单机搭建 环境要求 安装JDK,参考 安装Scala 2.10.4,参考 配置sshd(不是必须的) $ ssh-keygen -t dsa -P '' -f ~/.ssh/id_dsa $ cat ~/.ssh/id_…
spark之特征选择
特征选择 坊间传言:数据和特征决定了机器学习的上限,而模型和算法只是逼近这个上限而已。因此特征工程显得尤为重要,本文主要介绍特征选择方面工作,后续将会有特征预处理方面的。 peason特征选择 Pearson相关系数(P…