分类：Spark

用 Apache Spark 和 TensorFlow 进行深度学习

本文由 Tim Hunter 发表于 ENGINEERING BLOG 本文链接：https://databricks.com/blog/2016/01/25/deep-learning-with-apache-spar…

Spark 是专为大规模数据处理而设计的快速通用的计算引擎，是apache的一个开源项目。是一种跟hadoop相似的通用分布式并行计算框架，但是两者之间还存在一些不同之处。spark是一种基于内存计算的分布式执行框架，在…

完整工程用例最近一直在用directstream方式消费kafka中的数据，特此总结，整个代码工程分为三个部分一. 完整工程代码如下(某些地方特意做了说明, 这个代码的部分函数直接用的是spark-streaming…

最近看到Spark强大的DataFrame，默默地献上了鄙人的膝盖，刚开始研究，小有所成，由于按捺不住内心狂撞的小鹿，特在此献丑，希望看到的大神不要觉得小弟幼…

一、环境部署 hadoop集群2.7.1 flume 1.7.0 spark集群：spark-2.0.1-bin-hadoop2.7.tgz 环境搭建可参考我前面几篇文章。不再赘述三台机器：master，slave1,…

Spark 和 GraphX 对并不提供对数据可视化的支持, 它们所关注的是数据处理. 但是, 一图胜千言, 尤其是在数据分析时. 接下来, 我们构建一个可视化分析图的 Spark 应用. 需要用到的第三方库有: Gra…

Spark Sql-Sql解析 1. Sql语句的通用执行过程分析 sql语句在分析执行过程中会经历如下的几个步骤：语法解析操作绑定优化执行策略交付执行语法解析之后，会形成一个语法树。书中的每个节点是执行的规则…

我的原创地址：https://dongkelun.com/2018/06/03/sparkCacheAndPersist/ 1、RDD 持久化 Spark 中一个很重要的能力是将数据持久化（或称为缓存），在多个操作间都可…

mapPartitions 官方文档描述： Return a new RDD by applying a function to each partition of this RDD. ** mapPartitions函…

Spark-shell启动与退出启动在spark的bin目录中启动： ./spark-shell 进入spark shell中退出在scala> 中输入： :quit 退出（前面有个冒号） Scala基础 …

本文基于spark2.11 1. 前言 1.1 基本概念 RDD 关于RDD已经有很多文章了，可以参考一下理解Spark的核心RDD 依赖依赖分为窄依赖和宽依赖，下图描述了两种依赖(图片出自spark窄依赖和宽依赖) …

DataFrames具有如下特点： Ability to scale from kilobytes of data on a single laptop to petabytes on a large cluster（支…