Spark Streaming是一个实时流处理框架,实时流处理产生的背景是时效性高,数据量大,个人认为从严格意义上讲,Spark Streaming并不能算是实时流处理,只不过批次可以设置的特别小,接近实时而已,目前比较…
标签:apache
如何将Apache Spark用于不同类型的大数据分析用例
主要结论 了解如何将Apache Spark用于不同类型的大数据分析用例,例如批处理、互操作、图表、数据流分析,以及机器学习。 了解Spark Core及加载项库,包括Spark SQL、Spark Streaming、…
3个案例:用Spark解决Map Reduce问题!
Spark是一个Apache项目,它被标榜为“快如闪电的集群计算”。它拥有一个繁荣的开源社区,并且是目前最活跃的Apache项目。 Spark提供了一个更快、更通用的数据处理平台。和Hadoop相比,Spark可以让你的…
9.Spark Streaming
Spark Streaming 1 Why Apache Spark 2 关于Apache Spark 3 如何安装Apache Spark 4 Apache Spark的工作原理 5 spark弹性分布式数据集 6 R…
Apache Kafka -8 与Spark集成
Apache Kafka教程 之 与Spark集成 http://blogxinxiucan.sh1.newtouch.com/ 原文地址: http://blogxinxiucan.sh1.newtouch.com/2…
Apache Livy 实现思路及模块概述
本文基于 incubator-livy 0.4.0-incubating 关于Apache Livy(下文简称 livy)是什么以及有什么用,请移步:Livy:基于Apache Spark的REST服务 一、实现思路 在…
【转载】Apache Spark 内存管理详解
文章转自https://www.ibm.com/developerworks/cn/analytics/library/ba-cn-apache-spark-memory-management/index.html?ca…
Apache Spark 黑名单(Blacklist)机制介绍
在使用 Apache Spark 的时候,作业会以分布式的方式在不同的节点上运行;特别是当集群的规模很大时,集群的节点出现各种问题是很常见的,比如某个磁盘出现问题等。我们都知道 Apache Spark 是一个高性能、容…
Spark大数据平台应用实战
对于一个具有相当技术门槛与复杂度的平台,Spark从诞生到正式版本的成熟,经历的时间如此之短,让人惊诧。2009年,Spark诞生于伯克利大学AMPLab,于2010年正式开源,2013年成为了Apache基金项目,20…
Spark介绍、环境搭建及运行
Apache Spark 简介 Apache Spark 是什么 Apache Spark是一个分布式计算框架,旨在简化运行于计算机集群上的并行程序的编写。该框架对资源调度,任务的提交、执行和跟踪,节点间的通信以及数据并…
4.Apache Spark的工作原理
Apache Spark的工作原理 1 Why Apache Spark 2 关于Apache Spark 3 如何安装Apache Spark 4 Apache Spark的工作原理 5 spark弹性分布式数据集 6…
Apache Spark快速入门
https://www.iteblog.com/archives/1408.html 一、 为什么要选择Apache Spark 当前,我们正处在一个“大数据”的时代,每时每刻,都有各种类型的数据被生产。而在…