『 Spark 』5. 这些年,你不能错过的 spark 学习资源 – 简书 http://www.jianshu.com/p/59c54b46577b 原文链接:『 Spark 』5. 这些年,你不能错过的…
分类:Spark
kudu简介与操作方式
1、kudu整体介绍 Kudu是cloudera开源的运行在hadoop平台上的列式存储系统,拥有Hadoop生态系统应用的常见技术特性,运行在一般的商用硬件上,支持水平扩展,高可用。 kudu的使用场景: Strong…
如何做Spark 版本兼容
我们知道Spark2.0 ,Spark 1.6还有Spark 1.5 三者之间版本是不兼容的,尤其是一些内部API变化比较大。如果你的系统使用了不少底层的API,那么这篇文章或许对你有帮助。我们介绍的兼容相关一些技巧,主…
Spark on hdp Yarn Cluster 踩坑(hdp.version)
开源Spark运行在hdp的yarn集群失败分析: 部署方案 spark官网下载基于hdp的Hadoop版本的pre-built的spark安装包 在机器上解压,并在spark-env中配置HADOOP_CONF_DIR…
Spark SQL中的Encoder
以下错误,想必在做Spark的DateSet操作时一定是见过吧? Error:(58, 17) Unable to find encoder for type stored in a Dataset. Primitive…
【Spark Java API】Transformation(1)—mapPartitions、mapPartitionsWithIndex
mapPartitions 官方文档描述: Return a new RDD by applying a function to each partition of this RDD. ** mapPartitions函…
3.0Spark RDD实现详解
Spark技术内幕:深入解析Spark内核架构设计与实现原理 第三章 Spark RDD实现详解 RDD是Spark最基本也是最根本的数据抽象,它具备像MapReduce等数据流模型的容错性,并且允许开发人员在大型集群上…
[spark] Shuffle Read解析 (Sort Based Shuffle)
Shuffle Write 请看 Shuffle Write解析。 本文将讲解shuffle Reduce部分,shuffle的下游Stage的第一个rdd是ShuffleRDD,通过其compute方法来获取上游Sta…
Spark的安装(基于Mac)
一、简介 1.1内容 在mac电脑上成功安装spark(不用预先安装hadoop),并在jupyter上使用pyspark来操作spark。 1.2 知识点 jdk的安装 spark和pyspark的安装 虚拟环境的内核…
Spark之thriftserver/beeline的使用
启动thriftserver: 默认端口是10000 ,可以修改 启动beeline beeline -u jdbc:hive2://localhost:10000 -n hadoop 修改thriftserver启动占…
spark中删除文件夹
在写spark代码的时候,经常会遇到文件夹路径存在的情况,一般有以下的解决方式 1.在shell脚本中 直接调用hadoop fs -rm path 2.通过设置可直接覆盖文件路径,此方法我没有测试 yourSparkC…
Spark Streaming快速入坑指南
本文git地址,转载请注明,感谢 1.Overview spark streaming是spark的一个拓展应用,对实时数据流进行:可拓展、高吞吐、 可容错的流处理。 数据可以从多个来源得到,比如:Kafka,Flume…