1.Spark编程模型

背景:诞生于伯克利大学AMPLab的Spark是当今大数据领域最活跃、最热门、最高效的大数据通用平台,是Apache软件基金会所有开源项目中三大顶级开源项目之一。

1.1 Spark:一体化、多元化的告诉大数据通用计算平台和库

基于RDD,Spark成功构架起了一体化、多元化的大数据处理体系,在“One Stack to rule them all”思想的引领下,Spark成功使用Spark SQL、Spark Streaming、MLlib、GraphX近乎完美的解决了大数据中的Batch Processing、Streaming processing、Ad-hoc Qurey等三大核心问题。更为优雅的是,在Spark中,Spark SQL、Spark streaming、MLlib、GraphX四大子框架和库之间可以无缝共享数据和操作。

Spark的官网定义:Spark是一个通用的大规模数据快速处理引擎。

1.2 Spark大数据处理框架

1.2.1 Spark速度为何如此之快

1.统一的RDD抽象和操作

Spark作为一个通用的大数据计算平台,基于“One Stack to rule them all”的理念成功成为一体化、多元化的大数据处理平台,轻松应对大数据处理中的实时流计算、SQL交互式查询、机器学习和图计算等。

2.基于内存的迭代式计算

3.DAG

4.出色的容错机制

1.2.2 RDD:分布式函数式编程

    原文作者:wangyizhen
    原文地址: https://www.jianshu.com/p/8b9adbe9aea5
    本文转自网络文章,转载此文章仅为分享知识,如有侵权,请联系博主进行删除。
点赞