可伸缩的分布式数据集 Resilient Distributed Datasets (RDDs) 原文地址: http://spark.apache.org/docs/latest/programming-guide.h…
标签:spark
Spark计算引擎
一、Spark简介 由加州大学伯克利分校的AMP实验室开源 大规模分布式通用计算引擎 具有高吞吐、低延时、通用易扩展、高容错等特点 使用Scala语言开发,提供了丰富的开发API,支持Scala、Java、 Python…
Spark SQL,DataFrame以及 Datasets 编程指南 - For 2.0
撰写本文时 Spark 的最新版本为 2.0.0 概述 Spark SQL 是 Spark 用来处理结构化数据的一个模块。与基础的 Spark RDD API 不同,Spark SQL 提供了更多数据与要执行的计算的信息…
Spark源码分析(1) RDD是什么
RDD是Spark的基础,是对大数据的抽象,所以先破解Spark,首先从RDD开始。 * RDD 是什么?有什么特点? * RDD 包含什么? * RDD 能做什么? RDD 的注释 org.apache.spark.r…
Spark-shell&Scala(三)map与flatMap
刚开始看Spark API 或者Scala编程的时候,发现函数式编程看的不太明白。又不想系统的看看Scala的书,就找找网上资料了,顺便做做笔记。 map map操作,按照Spark里面的说就是,将一个RDD中的每一个元…
spark跟pandas数据转换
因为传统的机器学习是基于sklearn,xgboost,有着丰富分算法库,spark mlib不能满足所有的需求. spark来处理数据预处理和特征工程,sklearn,xgboost来训练. 需要spark和sklea…
Spark job server使用调研
Job Server概述 Spark-jobserver 提供了一个 RESTful 接口来提交和管理 spark 的 jobs、jars 和 job contexts。此项目包含了完整的 Spark job serve…
Spark 基础(下篇)
上篇介绍了spark的突出特点以及基本框架,下面给大家介绍下spark的基本数据结构、spark任务调度的详细流程以及spark中stage的划分。 5. spark的基本数据类型 RDD、DataFrame和DataS…
揭开Spark Streaming神秘面纱① - DStreamGraph 与 DStream DAG
在 Spark Streaming 中,DStreamGraph 是一个非常重要的组件,主要用来: 通过成员 inputStreams 持有 Spark Streaming 输入源及接收数据的方式 通过成员 output…
Hive迁移Saprk SQL的坑和改进办法
Qcon 全球软件开发者大会2016北京站 演讲主题:Spark在360的大规模实践与经验分享 李远策 360-Spark集群概况 360-Spark集群概况 360-Spark应用 MLLib • 算法:LDA、LR…
大数据Hadoop、Hive及Spark的内在联系
学习大数据不可避免地会用到Hadoop、Hive、Spark等内容,也很有必要去归类、整理和比较它们之间的异同与关系。无论是Hadoop还是Spark或是其他大数据处理工具,归根结底还是要面向大数据的四个核心问题。 1.…
大数据开发需要学习哪些技术?
大数据开发其实分两种,第一类是编写一些Hadoop、Spark的应用程序,第二类是对大数据处理系统本身进行开发。第一类工作感觉更适用于data. analyst这种职位吧,而且现在Hive Spark-SQL这种系统也提…