本文由 Tim Hunter 发表于 ENGINEERING BLOG 本文链接:https://databricks.com/blog/2016/01/25/deep-learning-with-apache-spar…
分类:Spark
Spark 基础(上篇)
Spark 是专为大规模数据处理而设计的快速通用的计算引擎,是apache的一个开源项目。是一种跟hadoop相似的通用分布式并行计算框架,但是两者之间还存在一些不同之处。spark是一种基于内存计算的分布式执行框架,在…
spark-streaming-kafka之createDirectStream模式
完整工程用例 最近一直在用directstream方式消费kafka中的数据,特此总结,整个代码工程分为三个部分 一. 完整工程代码如下(某些地方特意做了说明, 这个代码的部分函数直接用的是spark-streaming…
Spark DataFrame牛刀小试
最近看到Spark强大的DataFrame,默默地献上了鄙人的膝盖,刚开始研究,小有所成,由于按捺不住内心狂撞的小鹿,特在此献丑,希望看到的大神不要觉得小弟幼…
spark streaming + flume+python(编程)初探
一、环境部署 hadoop集群2.7.1 flume 1.7.0 spark集群:spark-2.0.1-bin-hadoop2.7.tgz 环境搭建可参考我前面几篇文章。不再赘述 三台机器:master,slave1,…
Spark GraphX 对图进行可视化
Spark 和 GraphX 对并不提供对数据可视化的支持, 它们所关注的是数据处理. 但是, 一图胜千言, 尤其是在数据分析时. 接下来, 我们构建一个可视化分析图的 Spark 应用. 需要用到的第三方库有: Gra…
Spark Sql-Sql解析
Spark Sql-Sql解析 1. Sql语句的通用执行过程分析 sql语句在分析执行过程中会经历如下的几个步骤: 语法解析 操作绑定 优化执行策略 交付执行 语法解析之后,会形成一个语法树。书中的每个节点是执行的规则…
Spark 持久化(cache和persist的区别)
我的原创地址:https://dongkelun.com/2018/06/03/sparkCacheAndPersist/ 1、RDD 持久化 Spark 中一个很重要的能力是将数据持久化(或称为缓存),在多个操作间都可…
【Spark Java API】Transformation(1)—mapPartitions、mapPartitionsWithIndex
mapPartitions 官方文档描述: Return a new RDD by applying a function to each partition of this RDD. ** mapPartitions函…
Spark-shell&Scala(一)
Spark-shell启动与退出 启动 在spark的bin目录中启动: ./spark-shell 进入spark shell中 退出 在scala> 中输入: :quit 退出(前面有个冒号) Scala基础 …
Spark job提交过程
本文基于spark2.11 1. 前言 1.1 基本概念 RDD 关于RDD已经有很多文章了,可以参考一下理解Spark的核心RDD 依赖 依赖分为窄依赖和宽依赖,下图描述了两种依赖(图片出自spark窄依赖和宽依赖) …
Spark scala dataframe基本操作
DataFrames具有如下特点: Ability to scale from kilobytes of data on a single laptop to petabytes on a large cluster(支…