分布式计算的核心思想在没有包裹业务之前并不复杂,简单而言,如果有一个任务(可以是查询,排序,搜索)可以被拆分为互不影响的若干个重复的小任务,那么我们就可以使用多台计算机并行的执行这些小任务。 任务执行必然需要对各种资源进…
分类:Spark
Spark Streaming 误用.transform(func)函数导致的问题解析
Spark/Spark Streaming transform 是一个很强的方法,不过使用过程中可能也有一些值得注意的问题。在分析的问题,我们还会顺带讨论下Spark Streaming 生成job的逻辑,从而让大家知道…
3.1 Spark应用执行机制分析
3.1 Spark应用执行机制分析 下面对Spark Application的基本概念和执行机制进行深入介绍。 3.1.1 Spark应用的基本概念 Spark应用(Application)是用户提交的应用程序。Spar…
PySpark on Yarn的相关依赖的解决方式
问题 Spark on Yarn是将yarn作为ClusterManager的运行模式,Spark会将资源(container)的管理与协调统一交给yarn去处理。 Spark on Yarn分为client/clust…
Spark On YARN 集群安装部署
本文展示了在之前搭建的Hadoop分布式集群的基础上如何搭建Spark分布式集群环境 一、已有环境 ubuntu 14.04 hadoop 2.7.1 集群安装参考 三台机器 master、slave1、slave2 二…
Phoenix 与Spark整合,完善大数据计算栈
本篇文章主要讲解phoenix与spark做整合,目的是将phoenix做存储,spark做计算层。这样就结合了phoenix查询速度快和spark计算速度快的优点。 在这里将Phoenix的表作为spark的RDD或者…
为Spark程序编写单元测试
相比于传统代码,Spark是比较难调试的,所以对其进行单元测试是非常必要的。 RDD测试 RDD在集群中运行,每次修改bug后,都要上传到集群进行测试,代价非常大。 所以优先在本地进行单元测试,可以减少小模块的逻辑错误。…
==Spark系列(九)DAGScheduler工作原理
Spark系列(九)DAGScheduler工作原理 – 会飞的纸盒 – 博客园 http://www.cnblogs.com/jianyuan/p/Spark%E7%B3%BB%E5%88%97…
搭建centos7的开发环境3-Spark安装配置
说起大数据开发,必然就会提到Spark,在这片博文中,我们就介绍一下Spark的安装和配置。 这是Centos7开发环境系列的第三篇,本篇的安装会基于之前的配置进行,有需要的请回复搭建centos7的开发环境1-系统安装…
spark任务提交时绝对路径添加额外配置文件提示找不到路径
spark任务提交,添加额外配置文件时用绝对路径读取不到上传的文件。 /usr/local/spark-2.1.0-bin-hadoop2.7/bin/spark-submit --name str_platform_t…
Spark MLlib机器学习开发指南(2) --基本统计
翻译自官方文档 如有问题,欢迎留言指正,转载请注明出处。 基本统计 目录 相关性 假设检验 相关性 计算两个数据系列之间的相关性是统计学中的常见操作。在spark.ml中,我们灵活的提供了在很多数据系列之间计算成对相关性…
提高spark任务稳定性1 - Blacklist 机制
场景 一个 spark 应用的产生过程: 获取需求 -> 编写spark代码 -> 测试通过 -> 扔上平台调度。 往往应用会正常运行一段时间,突然有一天运行失败,或是失败了一次才运行成功。 从开发者的…