第一部分:Stream程序设计原理 #SparkStreaming设计动机 很多重要的应用要处理大量在线流式数据,并返回近实时的结果 • 社交网络趋势跟踪 • 电商网站指标统计 • 广告系统 具备分布式流式处理框架的基…
分类:Spark
Spark job 异常排查-1
今天同事在做一个模型训练的时候,job出现如下异常: java.util.concurrent.RejectedExecutionException: Task scala.concurrent.impl.Callbac…
Spark History Server配置使用
Spark History Server配置使用 – 瞌睡中的葡萄虎 – 博客园 http://www.cnblogs.com/luogankun/p/3981645.html Spark his…
集群搭建(kafka+hadoop+spark+elasticsearch)
集群搭建(两台与多台一样,hadoop没有选则HA方案) 1. vim /etc/hosts (每个节点都修改) 10.128.7.39 hostname1 10.128.7.84 hostname2 2. 安装jdk,…
Spark核心编程:使用Java、Scala和spark-shell开发wordcount程序
开发wordcount程序 1、用Java开发wordcount程序 1.1 配置maven环境 1.2 如何进行本地测试 1.3 如何使用spark-submit提交到spark集群进行执行(spark-submit常…
Spark Streaming 数据产生与导入相关的内存分析
前言 我这篇文章会分几个点来描述Spark Streaming 的Receiver在内存方面的表现。 一个大致的数据接受流程 一些存储结构的介绍 哪些点可能导致内存问题,以及相关的配置参数 另外,有位大牛写了Spark …
SparkConf 配置的用法
SparkConf 配置的用法 Spark应用程序的配置,用于将各种Spark参数设置为键值对。 大多数情况下,将使用新的SparkConf(),创建一个SparkConf对象,该对象将从您的应用程序中设置的任何spar…
spark rdd缓存及缓存清理
首先我们看看官方的定义和用法介绍 RDD Persistence(持久化) Spark 中一个很重要的能力是将数据persisting持久化(或称为caching缓存),在多个操作间都可以访问这些持久化的数据。当持久化一…
Flink VS Spark
本文基于Spark最新2.4版本及Flink最新1.6,从生态圈,部署模式,架构原理,基础API,流处理等方面对比二者相似及不同之处,由于笔者水平限制,不当之处,敬请批评指正。 Spark和Flink均出自世界顶尖大学实…
Spark应用分片介绍
引言 分布式计算的基本思路是将数据分为多个部分,将同样的数据操作方式在数据的不同部分上执行,分别获得结果,然后通过“汇聚处理”的方式得到结果。如何将数据分为多个部分(也就是“分片”)便是其中的一个重要组成部分。Spark…
spark交互式开发wordcount
参考文档:http://mashibing.com/wiki/Spark
Spark Streaming使用场景及优化总结
SparkStreaming适合场景 Storm 流式计算(扶梯) 优点: 数据延迟度很低,Storm的事务机制要比SparkStreaming的事务机制要完善(什么是事务机制?对于一条数据,不多处理也不少处理,对于一条…