摘自:http://blog.csdn.net/zengchen__acmer/article/details/52063908 最近一直在写Spark 相关的项目, 但是以前从没有接触过spark 相关的东西, 只能是…
分类:Spark
Spark SQL2.X 在100TB上的Adaptive execution(自适应执行)实践
Spark SQL Adaptive Execution Adaptive execution in Spark-9850 Spark SQL是Apache Spark最广泛使用的一个组件,它提供了非常友好的接口来分布式…
Spark新愿景:让深度学习变得更加易于使用
前言 Spark成功的实现了当年的承诺,让数据处理变得更容易,现在,雄心勃勃的Databricks公司展开了一个新的愿景:让深度学习变得更容易。 当然牛好吹,也是要做些实际行动的,所有便有了spark-deep-lear…
Apache Spark连接MongoDB
大数据处理引擎Apache Spark与Mongodb相结合,构建一个复杂的实时分析系统。通过spark-mongodb连接器可以将spark与mongodb数据库连接起来。 image.png 1.前提 安装并运行Mo…
【Spark Java API】broadcast、accumulator
broadcast 官方文档描述: Broadcast a read-only variable to the cluster, returning a [[org.apache.spark.broadcast.Broa…
spark launcher解读
本文主要承接上篇spark-submit解读后,来说说在spark-class.sh中调用org.apache.spark.launcher.Main,最后spark launcher进行了怎样的操作。 经过spark-…
Spark Task 的执行流程② - 创建、分发 Task
本文为 Spark 2.0 源码分析笔记,由于源码只包含 standalone 模式下完整的 executor 相关代码,所以本文主要针对 standalone 模式下的 executor 模块,文中内容若不特意说明均为…
一次Spark上包依赖冲突的解决
本地环境IDEA, 但把Jar包上传到Spark集群的时候, Job会失败. 错误信息 2017-03-29 18:12:48,190 ERROR [Driver] yarn.ApplicationMaster (Log…
Spark 开发环境搭建(五)- Scala和Spark安装
五、Scala 和Spark 安装 Scala的安装比较简单,下载安装包,解压,然后配置环境变量即可使用。 1. Scala 安装 下载Scala http://www.scala-lang.org/download/2…
Spark on Yarn 部署中出现的问题
版本: spark 2.3.0 hadoop : cdh 5.14.2-2.6.0 配置情况: spark-env.sh HADOOP_CONF_DIR=/etc/hadoop/conf YARN_CONF_DIR=/e…
Spark-Core源码精读(8)、TaskScheduler和SchedulerBackend
从本文开始,我们进入Spark中的调度部分,首先本文将对TaskScheduler和SchedulerBackend的实现原理进行分析。 我们从SparkContext中的源码开始: val (sched, ts) = …
janusgraph gremlin-hadoop spark on yarn数据导入
基于apache hadoop的配置安装 安装相关的大数据组件,包括: hadoop 2.6.2 spark 1.6.1 hbase 1.0.0 zookeeper 3.4.10 janusgraph 0.2.0 环境变…