摘自https://www.zhihu.com/question/26568496/answer/41608400 举一个Hadoop自带的WordCount例子来说明 https://wiki.apache.org/h…
分类:Spark
##[pdf]Apache Toree工作原理
Apache Toree工作原理 – qq_34342386的博客 – 博客频道 – CSDN.NET http://blog.csdn.net/qq_34342386/article…
【Spark Java API】Action(1)—reduce、aggregate
reduce 官方文档描述: Reduces the elements of this RDD using the specified commutative and associative binary operato…
jstorm和spark-streaming的区别
大部分时候大家在选择技术方案的时候还是比较迷茫,是该选择JStorm还是Spark Streaming? 一般会流于一些并不重要问题的讨论,最后做出目光非常短浅的选择,几个月之后再改变技术方案。造成严重的开发量的浪费,甚…
大数据相关
hadoop原理 spark原理 kafka原理 数据仓库部分 Hadoop原理 MapReduce的原理 默认根据hdfs上文件的block来启动相应数量的mapTask,每个mapTask处理该分片文件时,以用户定义…
Spark入门教程(四)Spark架构原理和调优
本文全部手写原创,请勿复制粘贴、转载请注明出处,谢谢配合! Spark术语 Application:用户编写的Spark应用程序,包含了一个Driver 功能的代码和分布在集群中多个节点上运行的Executor代码 Dr…
spark从入门到放弃四十九:Spark Streaming(9)updateStateByKey
文章地址:http://www.haha174.top/article/details/255473 updateStateByKey 操作可以让我们为每个key 维护一份state ,并持续不断的更新该state 首先…
Spark 源码解析 : DAGScheduler中的DAG划分与提交
一、Spark 运行架构 Spark 运行架构如下图: 各个RDD之间存在着依赖关系,这些依赖关系形成有向无环图DAG,DAGScheduler对这些依赖关系形成的DAG,进行Stage划分,划分的规则很简单,从后往前回…
扣丁学堂浅谈Hadoop和Spark的异同
本篇文章扣丁学堂大数据培训小编和大家分享一下Hadoop和Spark的异同,对大数据感兴趣的小伙伴下面就随着小编一起来看一下吧。 大数据培训 谈到大数据,相信大家对Hadoop和Apache Spark这两个名字并不…
Spark 架构与作业执行流程
1. 名词解释: 作业相关的名词解释 Application:Spark Application的概念和Hadoop MapReduce中的类似,指的是用户编写的Spark应用程序,包含了一个Driver 功能的代码和分…
Spark Multi Tenancy系列 - 1 简述社区问题
Multi Tenancy 多租户,从软件架构定义,即于多用户的环境共用相同的系统或程序组件,计算资源根据一定的策略进行隔离、竞争、共享,并且仍可确保各用户间数据的隔离性。 对于Spark On Yarn而言,我们已经拥…
深入学习MongoDB
分为两部分: 一、MongoDB拓展技术 。MongoDB集群,指导用户设置和使用集群存储大量数据并高效访问数据,了解如何让应用程序兼容分布式数据库系统。 1.通过分片设置MongoDB集群; 2.在集群中查询和更新数据…