标签：spark

快乐大数据第11课 Spark Stream

第一部分：Stream程序设计原理 #SparkStreaming设计动机很多重要的应用要处理大量在线流式数据，并返回近实时的结果 • 社交网络趋势跟踪 • 电商网站指标统计 • 广告系统 具备分布式流式处理框架的基…

今天同事在做一个模型训练的时候，job出现如下异常： java.util.concurrent.RejectedExecutionException: Task scala.concurrent.impl.Callbac…

Spark History Server配置使用 – 瞌睡中的葡萄虎 – 博客园 http://www.cnblogs.com/luogankun/p/3981645.html Spark his…

开发wordcount程序 1、用Java开发wordcount程序 1.1 配置maven环境 1.2 如何进行本地测试 1.3 如何使用spark-submit提交到spark集群进行执行（spark-submit常…

前言我这篇文章会分几个点来描述Spark Streaming 的Receiver在内存方面的表现。一个大致的数据接受流程一些存储结构的介绍哪些点可能导致内存问题，以及相关的配置参数另外，有位大牛写了Spark …

SparkConf 配置的用法 Spark应用程序的配置，用于将各种Spark参数设置为键值对。大多数情况下，将使用新的SparkConf(),创建一个SparkConf对象，该对象将从您的应用程序中设置的任何spar…

本文基于Spark最新2.4版本及Flink最新1.6，从生态圈，部署模式，架构原理，基础API，流处理等方面对比二者相似及不同之处，由于笔者水平限制，不当之处，敬请批评指正。 Spark和Flink均出自世界顶尖大学实…

引言分布式计算的基本思路是将数据分为多个部分，将同样的数据操作方式在数据的不同部分上执行，分别获得结果，然后通过“汇聚处理”的方式得到结果。如何将数据分为多个部分（也就是“分片”）便是其中的一个重要组成部分。Spark…

参考文档:http://mashibing.com/wiki/Spark

DataFrame的推出，让Spark具备了处理大规模结构化数据的能力，不仅比原有的RDD转化方式更加简单易用，而且获得了更高的计算性能。Spark能够轻松实现从MySQL到DataFrame的转化，并且支持SQL查询。…

一、概述 word2vector 是google开源的一个生成词向量的工具，以语言模型为优化目标，迭代更新训练文本中的词向量，最终收敛获得词向量。词向量可以作为文本分析中重要的特征，在分类问题、标注问题等场景都有着重要的…

zookeeper安装 zookeeper3.4.6安装 spark高可用安装完成 spark高可用安装 hadoop安装 hadoop安装整合hadoop+spark 配置spark+hadoop HADOOP_CO…