Spark 事件体系的中枢是ListenerBus,由该类接受Event并且分发给各个Listener。MetricsSystem 则是一个为了衡量系统的各种指标的度量系统。Listener可以是MetricsSyste…
标签:spark
Spark SQL 探索
1.环境说明 Hadoop 2.7.1 集群 Spark 2.0.1集群 Hive2.0.1 2. 内容简介 Spark SQL 基本操作 3. 参考文档 本节推荐阅读的理论文章: 3.1 Spark SQL and D…
运行第一个SparkStreaming程序(及过程中问题解决)
官方示例说明 按照官方文档的 这个示例说明,可以轻松的在本地的spark-shell环境中测试这个示例。示例,即为了更好的入门,那么就再说明一下。 运行这个统计单词的方式有三种,前面两种是官方文档上的指引,第三种则是用s…
Spark函数扩展功能介绍
问题导读 1.UDF对spark sql的作用是什么? 2.用Scala编写的UDF与普通的Scala函数唯一的区别在什么地方? 3.如何在spark中使用UDF? 在数据分析领域中,没有人能预见所有的数据运算,以至于将…
Spark job server使用调研
Job Server概述 Spark-jobserver 提供了一个 RESTful 接口来提交和管理 spark 的 jobs、jars 和 job contexts。此项目包含了完整的 Spark job serve…
Spark DataFrame按某列降序排序
我的原创地址:https://dongkelun.com/2018/07/04/sparkDfSortDesc/ 前言 本文总结如何将DataFrame按某列降序排序,因为Spark默认的排序方式为升序,而降序的用法和j…
《从0到1学习Spark》--DataFrame和Dataset探秘
昨天小强带着大家了解了Spark SQL的由来、Spark SQL的架构和SparkSQL四大组件:Spark SQL、DataSource Api、DataFrame Api和Dataset Api。今天小强和大家一起…
Spark架构原理
我的原创地址:https://dongkelun.com/2018/06/09/sparkArchitecturePrinciples/ 前言 本文总结了Spark架构原理,其中主要包括五个组件:Driver、Maste…
Spark shuffle writer源码解析
Shuffle分类 一个作业经过spark的DAGSchedule调度器划分为多个stage,同时有些下游的stage依赖上游的stage,这样会导致上游的stage做map的工作,下游的stage做reduce的工作。…
学习汇总
python python假设检验(很全):python假设检验 统计功能包:scipy 统计模型包:statsmodels 画图包:bokeh seaborn …
Spark集群搭建过程中遇到的一些问题
1、 在搭建好hadoop,spark之后,提交第一次任务的时候就出现了错误。 在任务提交并创建之后,从8088看,任务一直处于ACCEPTED状态,而在shell中一直重复如下信息: 17/04/03 16:43:24…
【Spark Java API】broadcast、accumulator
broadcast 官方文档描述: Broadcast a read-only variable to the cluster, returning a [[org.apache.spark.broadcast.Broa…