DStream 对DStream实施map,filter等操作操作,会转换成另外一个DStream,也就是说DStream也有依赖关系DStream是一组连续的RDD序列,实际上就是在时间维度上对RDD集合的封装,DSt…
分类:Spark
Apache Spark 2.2.0 中文文档 - GraphX Programming Guide | ApacheCN
GraphX Programming Guide 概述 入门 属性 Graph 示例属性 Graph Graph 运算符 运算符的汇总表 Property 运算符 Structural 运算符 Join 运算符 邻域聚合…
Spark入门网络课程推荐
现在大数据处理领域最火爆的非Spark莫属,今年夏天Berkeley大学开放了两门Spark入门网络课程。跟着学习了一下,感觉非常适合入门,课程同时会涉及到数据分析方法、ML的一些基础算法。 两门课程如下: 第一门 CS…
《Hadoop技术内幕:深入解析Hadoop和HDFS》2.1配置文件简介
2.1 配置文件简介 配置文件是一个灵活系统不可缺少的一部分,虽然配置文件非常重要,但却没有标准。 本节我们来了解 Windows 操作系统和 Java 环境中的配置文件。 2.1.1 Windows 操作系统的配置文件…
SparkStreaming入门教程(二)基础输入源:TCP+HDFS 实时读取文件数据并处理
本文全部手写原创,请勿复制粘贴、转载请注明出处,谢谢配合! 初始化SparkStreaming 前面我们架构原理上讲到,SparkStreaming依赖于StreamingContext和SparkContext 因此首…
Flink VS Spark
本文基于Spark最新2.4版本及Flink最新1.6,从生态圈,部署模式,架构原理,基础API,流处理等方面对比二者相似及不同之处,由于笔者水平限制,不当之处,敬请批评指正。 Spark和Flink均出自世界顶尖大学实…
spark从入门到放弃二十八:Spark Sql (1)Data Set
文章地址:http://www.haha174.top/article/details/257834 项目源码:https://github.com/haha174/spark.git 1.简介 Spark Sql 是S…
【Spark入门】搭建Spark单节点本地运行环境
搭建步骤 使用的系统是macOS,搭建步骤如下: 下载Spark 下载地址:http://spark.apache.org/downloads.html 下载后的放置目录: /Users/anthony/Library …
大数据入门与实战-Spark上手
1 Spark简介 1.1 引言 行业正在广泛使用Hadoop来分析他们的数据集。原因是Hadoop框架基于简单的编程模型(MapReduce),它使计算解决方案具有可扩展性,灵活性,容错性和成本效益。在这里,主要关注的…
spark常见问题处理
1、spark thriftserver报以下错误,其他诸如hive/sparksql等方式均正常 ERROR ActorSystemImpl: Uncaught fatal er…
Spark Streaming 无法找到数据块问题
最近一个Spark Streaming项目停止了几个小时,发现后设置为自动重启。结果,Spark Streaming频繁重启,平均十分钟左右就要重启一次。 异常信息为:org.apache.h…
spark 作业调优指南
我们以数据源自kafka为例,进行spark作业调优的分析 1 资源评估 网络能力: 评估下使用的节点数、网络带宽,与所要处理的数据量,在网络能力上是否匹配。节点直接的网络是否符合预期。 计算能力: 估算下所拥有的节点的…