第一部分:Stream程序设计原理 #SparkStreaming设计动机 很多重要的应用要处理大量在线流式数据,并返回近实时的结果 • 社交网络趋势跟踪 • 电商网站指标统计 • 广告系统 具备分布式流式处理框架的基…
标签:spark
Spark job 异常排查-1
今天同事在做一个模型训练的时候,job出现如下异常: java.util.concurrent.RejectedExecutionException: Task scala.concurrent.impl.Callbac…
Spark History Server配置使用
Spark History Server配置使用 – 瞌睡中的葡萄虎 – 博客园 http://www.cnblogs.com/luogankun/p/3981645.html Spark his…
Spark核心编程:使用Java、Scala和spark-shell开发wordcount程序
开发wordcount程序 1、用Java开发wordcount程序 1.1 配置maven环境 1.2 如何进行本地测试 1.3 如何使用spark-submit提交到spark集群进行执行(spark-submit常…
Spark Streaming 数据产生与导入相关的内存分析
前言 我这篇文章会分几个点来描述Spark Streaming 的Receiver在内存方面的表现。 一个大致的数据接受流程 一些存储结构的介绍 哪些点可能导致内存问题,以及相关的配置参数 另外,有位大牛写了Spark …
SparkConf 配置的用法
SparkConf 配置的用法 Spark应用程序的配置,用于将各种Spark参数设置为键值对。 大多数情况下,将使用新的SparkConf(),创建一个SparkConf对象,该对象将从您的应用程序中设置的任何spar…
Flink VS Spark
本文基于Spark最新2.4版本及Flink最新1.6,从生态圈,部署模式,架构原理,基础API,流处理等方面对比二者相似及不同之处,由于笔者水平限制,不当之处,敬请批评指正。 Spark和Flink均出自世界顶尖大学实…
Spark应用分片介绍
引言 分布式计算的基本思路是将数据分为多个部分,将同样的数据操作方式在数据的不同部分上执行,分别获得结果,然后通过“汇聚处理”的方式得到结果。如何将数据分为多个部分(也就是“分片”)便是其中的一个重要组成部分。Spark…
spark交互式开发wordcount
参考文档:http://mashibing.com/wiki/Spark
7.Spark学习(Python版本):Spark SQL中的DataFrame的操作
DataFrame的推出,让Spark具备了处理大规模结构化数据的能力,不仅比原有的RDD转化方式更加简单易用,而且获得了更高的计算性能。Spark能够轻松实现从MySQL到DataFrame的转化,并且支持SQL查询。…
第二篇: 词向量之Spark word2vector实战
一、概述 word2vector 是google开源的一个生成词向量的工具,以语言模型为优化目标,迭代更新训练文本中的词向量,最终收敛获得词向量。词向量可以作为文本分析中重要的特征,在分类问题、标注问题等场景都有着重要的…
hadoop+spark 整合
zookeeper安装 zookeeper3.4.6安装 spark高可用安装完成 spark高可用安装 hadoop安装 hadoop安装 整合hadoop+spark 配置spark+hadoop HADOOP_CO…