分类：Spark

分布式计算：Hadoop，Storm，Spark，Flink，MeSoS扫盲

分布式计算的核心思想在没有包裹业务之前并不复杂，简单而言，如果有一个任务（可以是查询，排序，搜索）可以被拆分为互不影响的若干个重复的小任务，那么我们就可以使用多台计算机并行的执行这些小任务。任务执行必然需要对各种资源进…

Spark/Spark Streaming transform 是一个很强的方法，不过使用过程中可能也有一些值得注意的问题。在分析的问题，我们还会顺带讨论下Spark Streaming 生成job的逻辑，从而让大家知道…

3.1 Spark应用执行机制分析下面对Spark Application的基本概念和执行机制进行深入介绍。 3.1.1 Spark应用的基本概念 Spark应用（Application）是用户提交的应用程序。Spar…

问题 Spark on Yarn是将yarn作为ClusterManager的运行模式，Spark会将资源（container）的管理与协调统一交给yarn去处理。 Spark on Yarn分为client/clust…

本文展示了在之前搭建的Hadoop分布式集群的基础上如何搭建Spark分布式集群环境一、已有环境 ubuntu 14.04 hadoop 2.7.1 集群安装参考三台机器 master、slave1、slave2 二…

本篇文章主要讲解phoenix与spark做整合，目的是将phoenix做存储，spark做计算层。这样就结合了phoenix查询速度快和spark计算速度快的优点。在这里将Phoenix的表作为spark的RDD或者…

相比于传统代码，Spark是比较难调试的，所以对其进行单元测试是非常必要的。 RDD测试 RDD在集群中运行，每次修改bug后，都要上传到集群进行测试，代价非常大。所以优先在本地进行单元测试，可以减少小模块的逻辑错误。…

Spark系列(九)DAGScheduler工作原理 – 会飞的纸盒 – 博客园 http://www.cnblogs.com/jianyuan/p/Spark%E7%B3%BB%E5%88%97…

说起大数据开发，必然就会提到Spark，在这片博文中，我们就介绍一下Spark的安装和配置。这是Centos7开发环境系列的第三篇，本篇的安装会基于之前的配置进行，有需要的请回复搭建centos7的开发环境1-系统安装…

spark任务提交，添加额外配置文件时用绝对路径读取不到上传的文件。 /usr/local/spark-2.1.0-bin-hadoop2.7/bin/spark-submit --name str_platform_t…

翻译自官方文档如有问题，欢迎留言指正，转载请注明出处。基本统计目录相关性假设检验相关性计算两个数据系列之间的相关性是统计学中的常见操作。在spark.ml中，我们灵活的提供了在很多数据系列之间计算成对相关性…

场景一个 spark 应用的产生过程：获取需求 -> 编写spark代码 -> 测试通过 -> 扔上平台调度。往往应用会正常运行一段时间，突然有一天运行失败，或是失败了一次才运行成功。从开发者的…