文章也同时在个人博客 http://kimihe.com/更新 引言 “Apache Spark™ is a fast and general engine for large-scale da…
分类:Spark
Spark快速入门
Spark快速入门 本教程提供了如何使用 Spark 的简要介绍。首先通过运行 Spark 交互式的 shell(在 Python 或 Scala 中)来介绍 API,然后展示如何使用 Java ,Scala 和 Pyt…
(DT_Spark)『DT大数据梦工厂』Spark亚太研究院王家林老师的Spark技术视频
Spark亚太研究院系列丛书_百度搜索 https://www.baidu.com/s?wd=Spark%E4%BA%9A%E5%A4%AA%E7%A0%94%E7%A9%B6%E9%99%A2%E7%B3%BB%E5%…
Spark 应用场景示例
Spark 应用场景示例 Spark 项目搭建 环境介绍 框架 版本 Centos 7 Java 8 Scala 2.11.12 SBT 1.0 Spark 2.3.0 IDEA plugin Scala 准备工作 搭建…
完美解决 Spark:java.net.URISyntaxException: Relative path in absolute URI: file:D:/XXX/SparkFaultBench/spark-warehouse
windows下使用intellij 开发 spark mllib 程序 发现如下错误。 var spark=SparkSession.builder().master("local").appName("spark_m…
spark.yarn.submit.waitAppCompletion
看一下提交命令 offline.sh 中的一个有趣的配置: spark2-submit \ --class $1 \ --master yarn \ --deploy-mode cluster \ --driver-me…
使用StreamingPro 快速构建Spark SQL on CarbonData
前言 CarbonData已经发布了1.0版本,变更还是很快的,这个版本已经移除了kettle了,使得部署和使用 变得很简单,而且支持1.6+ ,2.0+等多个Spark版本。 StreamingPro可以使得你很简单通…
[译]运行在YARN上的Spark程序的Executor,Cores和Memory的分配
好久没更新了,。。。太懒了。 在跑Spark-On-Yarn程序的时候,往往会对几个参数(num-executors,executor-cores,executor-memory等)理解很模糊,从而凭感觉地去指定值,这是…
Spark将大量分区写入HDFS报错
对大量的数据进行一系列的数据处理后DataFrame此时有2W个分区(170W条数据,因此每个分区数量只有几百条),此时使用parquet命令,将会往一个hdfs文件中同时写入了大量的碎文件。 提示(省略无用信息): W…
Spark Shuffle FetchFailedException解决方案
在大规模数据处理中,这是个比较常见的错误。 报错提示 SparkSQL shuffle操作带来的报错 org.apache.spark.shuffle.MetadataFetchFailedException: Miss…
Spark UDF学习笔记
本文git地址,转载请注明,感谢 UDF(User-defined functions, UDFs),即用户自定义函数,在Spark Sql的开发中十分常用,UDF对表中的每一行进行函数处理,返回新的值,有些类似与RDD…
SparkStreaming+Kafka 实现基于缓存的实时wordcount程序
我的原创地址:https://dongkelun.com/2018/06/14/updateStateBykeyWordCount/ 前言 本文利用SparkStreaming和Kafka实现基于缓存的实时wordcou…