标签：spark

Spark自定义分区(Partitioner)

基于优化和数据的有序性等问题考虑，某个设备的日志数据分到指定的计算节点，减少数据的网络传输我们都知道Spark内部提供了HashPartitioner和RangePartitioner两种分区策略，这两种分区策略在很多…

学习 Spark Streaming 的重要性 – andyshar的博客 – 博客频道 – CSDN.NET http://blog.csdn.net/andyshar/articl…

倾情大奉送–Spark入门实战系列 – shishanyuan – 博客园 http://www.cnblogs.com/shishanyuan/p/4699644.html 这一两年…

Spark MLlib机器学习开发指南(7)–特征转换–Tokenizer 翻译自Tokenizer,基于最新2.2.0版本翻译,转载注明出处 xcrossed 机器学习 Tokenizer To…

一、环境部署 hadoop集群2.7.1 flume 1.7.0 spark集群：spark-2.0.1-bin-hadoop2.7.tgz 环境搭建可参考我前面几篇文章。不再赘述三台机器：master，slave1,…

Thrift JDBC Server描述 Thrift JDBC Server使用的是HIVE0.12的HiveServer2实现。能够使用Spark或者hive0.12版本的beeline脚本与JDBC Server进…

Spark 1.6发布后，官方声称流式状态管理有10倍性能提升。这篇文章会详细介绍Spark Streaming里新的流式状态管理。关于状态管理在流式计算中，数据是持续不断来的，有时候我们要对一些数据做跨周期(Dur…

大数据开发其实分两种，第一类是编写一些Hadoop、Spark的应用程序，第二类是对大数据处理系统本身进行开发。第一类工作感觉更适用于data. analyst这种职位吧，而且现在Hive Spark-SQL这种系统也提…

本文章，原创若泽数据，禁止所有阅读，转载，分享及评论 spark on yarn 执行流程前置构建Spark Application的运行环境（启动SparkContext），SparkContext向资源管理器（…

import java.io.{File, FileReader} import java.util import org.apache.spark.SparkConf import org.apache.spark.b…

1. 前言这是一篇挂羊头卖狗肉的文章，事实上，本文要描述的内容，和Spark Streaming没有什么关系。在上一篇文章http://www.jianshu.com/p/a73c0c95d2fe 我们写了如何通过S…

看 spark streaming 源码解析之前最好先了解spark core的内容。前言 Spark Streaming 是基于Spark Core将流式计算分解成一系列的小批处理任务来执行。在Spark Stre…