分类：Spark

『 Spark 』5. 这些年，你不能错过的 spark 学习资源

『 Spark 』5. 这些年，你不能错过的 spark 学习资源 – 简书 http://www.jianshu.com/p/59c54b46577b 原文链接：『 Spark 』5. 这些年，你不能错过的…

1、kudu整体介绍 Kudu是cloudera开源的运行在hadoop平台上的列式存储系统,拥有Hadoop生态系统应用的常见技术特性，运行在一般的商用硬件上，支持水平扩展,高可用。 kudu的使用场景： Strong…

我们知道Spark2.0 ，Spark 1.6还有Spark 1.5 三者之间版本是不兼容的，尤其是一些内部API变化比较大。如果你的系统使用了不少底层的API,那么这篇文章或许对你有帮助。我们介绍的兼容相关一些技巧，主…

开源Spark运行在hdp的yarn集群失败分析：部署方案 spark官网下载基于hdp的Hadoop版本的pre-built的spark安装包在机器上解压，并在spark-env中配置HADOOP_CONF_DIR…

以下错误，想必在做Spark的DateSet操作时一定是见过吧？ Error:(58, 17) Unable to find encoder for type stored in a Dataset. Primitive…

mapPartitions 官方文档描述： Return a new RDD by applying a function to each partition of this RDD. ** mapPartitions函…

Spark技术内幕：深入解析Spark内核架构设计与实现原理第三章 Spark RDD实现详解 RDD是Spark最基本也是最根本的数据抽象，它具备像MapReduce等数据流模型的容错性，并且允许开发人员在大型集群上…

Shuffle Write 请看 Shuffle Write解析。本文将讲解shuffle Reduce部分，shuffle的下游Stage的第一个rdd是ShuffleRDD，通过其compute方法来获取上游Sta…

一、简介 1.1内容在mac电脑上成功安装spark（不用预先安装hadoop），并在jupyter上使用pyspark来操作spark。 1.2 知识点 jdk的安装 spark和pyspark的安装虚拟环境的内核…

启动thriftserver: 默认端口是10000 ，可以修改启动beeline beeline -u jdbc:hive2://localhost:10000 -n hadoop 修改thriftserver启动占…

在写spark代码的时候，经常会遇到文件夹路径存在的情况，一般有以下的解决方式 1.在shell脚本中直接调用hadoop fs -rm path 2.通过设置可直接覆盖文件路径，此方法我没有测试 yourSparkC…

本文git地址，转载请注明，感谢 1.Overview spark streaming是spark的一个拓展应用，对实时数据流进行：可拓展、高吞吐、可容错的流处理。数据可以从多个来源得到，比如：Kafka，Flume…