基于优化和数据的有序性等问题考虑,某个设备的日志数据分到指定的计算节点,减少数据的网络传输 我们都知道Spark内部提供了HashPartitioner和RangePartitioner两种分区策略,这两种分区策略在很多…
标签:spark
『DT_Spark』学习 Spark Streaming 的重要性
学习 Spark Streaming 的重要性 – andyshar的博客 – 博客频道 – CSDN.NET http://blog.csdn.net/andyshar/articl…
倾情大奉送--Spark入门实战系列 - shishanyuan
倾情大奉送–Spark入门实战系列 – shishanyuan – 博客园 http://www.cnblogs.com/shishanyuan/p/4699644.html 这一两年…
Spark MLlib机器学习开发指南(7)--特征转换--Tokenizer
Spark MLlib机器学习开发指南(7)–特征转换–Tokenizer 翻译自Tokenizer,基于最新2.2.0版本翻译,转载注明出处 xcrossed 机器学习 Tokenizer To…
spark streaming + flume+python(编程)初探
一、环境部署 hadoop集群2.7.1 flume 1.7.0 spark集群:spark-2.0.1-bin-hadoop2.7.tgz 环境搭建可参考我前面几篇文章。不再赘述 三台机器:master,slave1,…
如何在Spark平台搭建ThriftServer
Thrift JDBC Server描述 Thrift JDBC Server使用的是HIVE0.12的HiveServer2实现。能够使用Spark或者hive0.12版本的beeline脚本与JDBC Server进…
Spark Streaming 1.6 流式状态管理分析
Spark 1.6发布后,官方声称流式状态管理有10倍性能提升。这篇文章会详细介绍Spark Streaming里新的流式状态管理。 关于状态管理 在流式计算中,数据是持续不断来的,有时候我们要对一些数据做跨周期(Dur…
大数据开发需要学习哪些技术?
大数据开发其实分两种,第一类是编写一些Hadoop、Spark的应用程序,第二类是对大数据处理系统本身进行开发。第一类工作感觉更适用于data. analyst这种职位吧,而且现在Hive Spark-SQL这种系统也提…
spark on yarn源码解析
本文章,原创 若泽数据 ,禁止所有阅读,转载,分享及评论 spark on yarn 执行流程前置 构建Spark Application的运行环境(启动SparkContext),SparkContext向资源管理器(…
spark使用广播变量
import java.io.{File, FileReader} import java.util import org.apache.spark.SparkConf import org.apache.spark.b…
Spark Streaming提高写数据库的效率
1. 前言 这是一篇挂羊头卖狗肉的文章,事实上,本文要描述的内容,和Spark Streaming没有什么关系。 在上一篇文章http://www.jianshu.com/p/a73c0c95d2fe 我们写了如何通过S…
[spark streaming] DStream 和 DStreamGraph 解析
看 spark streaming 源码解析之前最好先了解spark core的内容。 前言 Spark Streaming 是基于Spark Core将流式计算分解成一系列的小批处理任务来执行。 在Spark Stre…