分类：Spark

Spark入门指南 I - 快速配置

文章也同时在个人博客 http://kimihe.com/更新引言 “Apache Spark™ is a fast and general engine for large-scale da…

Spark快速入门本教程提供了如何使用 Spark 的简要介绍。首先通过运行 Spark 交互式的 shell（在 Python 或 Scala 中）来介绍 API，然后展示如何使用 Java ，Scala 和 Pyt…

Spark亚太研究院系列丛书_百度搜索 https://www.baidu.com/s?wd=Spark%E4%BA%9A%E5%A4%AA%E7%A0%94%E7%A9%B6%E9%99%A2%E7%B3%BB%E5%…

Spark 应用场景示例 Spark 项目搭建环境介绍框架版本 Centos 7 Java 8 Scala 2.11.12 SBT 1.0 Spark 2.3.0 IDEA plugin Scala 准备工作搭建…

windows下使用intellij 开发 spark mllib 程序发现如下错误。 var spark=SparkSession.builder().master("local").appName("spark_m…

看一下提交命令 offline.sh 中的一个有趣的配置： spark2-submit \ --class $1 \ --master yarn \ --deploy-mode cluster \ --driver-me…

前言 CarbonData已经发布了1.0版本，变更还是很快的，这个版本已经移除了kettle了，使得部署和使用变得很简单，而且支持1.6+ ,2.0+等多个Spark版本。 StreamingPro可以使得你很简单通…

好久没更新了，。。。太懒了。在跑Spark-On-Yarn程序的时候，往往会对几个参数（num-executors，executor-cores，executor-memory等）理解很模糊，从而凭感觉地去指定值，这是…

对大量的数据进行一系列的数据处理后DataFrame此时有2W个分区（170W条数据，因此每个分区数量只有几百条），此时使用parquet命令，将会往一个hdfs文件中同时写入了大量的碎文件。提示(省略无用信息): W…

在大规模数据处理中，这是个比较常见的错误。报错提示 SparkSQL shuffle操作带来的报错 org.apache.spark.shuffle.MetadataFetchFailedException: Miss…

本文git地址，转载请注明，感谢 UDF(User-defined functions, UDFs),即用户自定义函数，在Spark Sql的开发中十分常用，UDF对表中的每一行进行函数处理，返回新的值，有些类似与RDD…

我的原创地址：https://dongkelun.com/2018/06/14/updateStateBykeyWordCount/ 前言本文利用SparkStreaming和Kafka实现基于缓存的实时wordcou…