标签：spark

run spark on yarn

需要HADOOP_CONF_DIR YARN_CONF_DIR环境变量，用于写入数据到hdfs和连接到yarn的resourcemanager。启动方式同样有两种： cluster mode 在yarn集群中的一个进程…

原文链接 Spark SQL中的DataFrame类似于一张关系型数据表。在关系型数据库中对单表或进行的查询操作，在DataFrame中都可以通过调用其API接口来实现。可以参考，Scala提供的DataFrame AP…

spark-submit参数设置说明，即提交EMR集群的Spark作业资源调优，详见该链接：spark-submit 参数设置说明和该链接：Spark On YARN内存和CPU分配。 AM: YARN Applica…

文章也同时在个人博客 http://kimihe.com/更新引言 “Apache Spark™ is a fast and general engine for large-scale da…

Spark快速入门本教程提供了如何使用 Spark 的简要介绍。首先通过运行 Spark 交互式的 shell（在 Python 或 Scala 中）来介绍 API，然后展示如何使用 Java ，Scala 和 Pyt…

Spark亚太研究院系列丛书_百度搜索 https://www.baidu.com/s?wd=Spark%E4%BA%9A%E5%A4%AA%E7%A0%94%E7%A9%B6%E9%99%A2%E7%B3%BB%E5%…

Spark 应用场景示例 Spark 项目搭建环境介绍框架版本 Centos 7 Java 8 Scala 2.11.12 SBT 1.0 Spark 2.3.0 IDEA plugin Scala 准备工作搭建…

windows下使用intellij 开发 spark mllib 程序发现如下错误。 var spark=SparkSession.builder().master("local").appName("spark_m…

看一下提交命令 offline.sh 中的一个有趣的配置： spark2-submit \ --class $1 \ --master yarn \ --deploy-mode cluster \ --driver-me…

前言 CarbonData已经发布了1.0版本，变更还是很快的，这个版本已经移除了kettle了，使得部署和使用变得很简单，而且支持1.6+ ,2.0+等多个Spark版本。 StreamingPro可以使得你很简单通…

好久没更新了，。。。太懒了。在跑Spark-On-Yarn程序的时候，往往会对几个参数（num-executors，executor-cores，executor-memory等）理解很模糊，从而凭感觉地去指定值，这是…

Hive数据源实战 Spark SQL支持对Hive中存储的数据进行读写。操作Hive中的数据时，必须创建HiveContext，而不是SQLContext。HiveContext继承自SQLContext，但是增加了在…