Spark采用一个统一的技术堆栈解决了云计算大数据的如流处理、图技术、机器学习、NoSQL查询等方面的所有核心问题,具有完善的生态系统,这直接奠定了其一统云计算大数据领域的霸主地位。 Spark是发源于美国加州大学伯克利…
分类:Spark
Spark的执行原理浅析
Spark是什么呢? Spark是一款为快速处理大数据通用计算引擎;负责读取数据,完成分布式计算;弥补了Hadoop的在分布式运算慢的缺点;Hadoop的缺陷:无论是Mapreduce或YARN…
Apache Spark快速入门
https://www.iteblog.com/archives/1408.html 一、 为什么要选择Apache Spark 当前,我们正处在一个“大数据”的时代,每时每刻,都有各种类型的数据被生产。而在…
==[原理]Spark会把数据都载入到内存么?
添加关注 作者 祝威廉 2016.04.19 23:53* 写了147997字,被1139人关注,获得了540个喜欢 Spark会把数据都载入到内存么? 字数1239 阅读3040 评论21 喜欢12 这篇文…
Spark REST API深入分析
曲速区表示:这是首次在真实攻击中发现使用“暗网”来传播恶意后门的样本,预计未来这一趋势会逐步扩大。目前全网约5000台 Spark服务器受此漏洞影响。还被监控到该类型的攻击还处于小范围尝试阶段,需要谨防后续的规模性爆发。…
Flink 原理与实现:深入理解Flink核心技术
Apache Flink(下简称Flink)项目是大数据处理领域最近冉冉升起的一颗新星,其不同于其他大数据项目的诸多特性吸引了越来越多人的关注。本文将深入分析Flink的一些关键技术与特性,希望能够帮助读者对Flink有…
【淬火重炼,岂止于快】超越XGBoost和Spark的Angel开源l
# 【淬火重炼,岂止于快】超越XGBoost和Spark的Angel开源l — 经过漫长的准备和打磨,新一代的Angel终于开源了。Github地址:[https://github.com/tencent/a…
Spark从入门到精通 SQL, DataFrame and Dataset
Spark从入门到精通-SQL, DataFrame and Dataset 官方原文链接 本文代码对应的git地址 本文知识点 思维导图源文件 SparkSession 创建SparkSession import or…
Spark内核分析之BlockManager工作原理介绍
最近一直在忙,没顾得上写文章,新年的第一篇文章,希望大家可以喜欢;好了,今天接着之前的内容,来聊聊BlockManager的…
『 Spark 』1. spark 简介
原文链接:『 Spark 』1. spark 简介 写在前面 本系列是综合了自己在学习spark过程中的理解记录 + 对参考文章中的一些理解 + 个人实践spark过程中的一些心得而来。写这样一个系列仅仅是为了梳理个人学…
Spark入门——Python
一.安装spark 安装可参照厦门大学数据实验室出的安装教程–Spark快速入门指南 – Spark安装与基础使用 二.Spark Python 参照官方文档–Spark Progra…
spark streaming checkpointing 踩坑记
spark streaming的应用可能需要7*24小时不间断的运行,因此需要一定的容错能力。在系统出现问题后,spark streaming 应用能够从上次出错的地方重新开始。为此spark streaming提供了c…