昨天小强带着大家了解了Spark SQL的由来、Spark SQL的架构和SparkSQL四大组件:Spark SQL、DataSource Api、DataFrame Api和Dataset Api。今天小强和大家一起…
分类:Spark
Spark架构原理
我的原创地址:https://dongkelun.com/2018/06/09/sparkArchitecturePrinciples/ 前言 本文总结了Spark架构原理,其中主要包括五个组件:Driver、Maste…
Spark shuffle writer源码解析
Shuffle分类 一个作业经过spark的DAGSchedule调度器划分为多个stage,同时有些下游的stage依赖上游的stage,这样会导致上游的stage做map的工作,下游的stage做reduce的工作。…
学习汇总
python python假设检验(很全):python假设检验 统计功能包:scipy 统计模型包:statsmodels 画图包:bokeh seaborn …
Spark集群搭建过程中遇到的一些问题
1、 在搭建好hadoop,spark之后,提交第一次任务的时候就出现了错误。 在任务提交并创建之后,从8088看,任务一直处于ACCEPTED状态,而在shell中一直重复如下信息: 17/04/03 16:43:24…
【Spark Java API】broadcast、accumulator
broadcast 官方文档描述: Broadcast a read-only variable to the cluster, returning a [[org.apache.spark.broadcast.Broa…
22list『DT_Spark 』第114课:SparkStreaming+Kafka+Spark SQL+TopN+Mysql+KafkaOffsetMonitor电商广告点击综合案例实战(详细内幕版本)
第114课:SparkStreaming+Kafka+Spark SQL+TopN+Mysql+KafkaOffsetMonitor电商广告点击综合案例实战(详细内幕版本) – 段智华的博客 – …
Apache Spark相比Hadoop的优势
以下的话是由Apache Spark committer的Reynold Xin阐述。 从很多方面来讲,Spark都是MapReduce 模式的最好实现。比如从程序抽象的角度来看: 1、他抽象出Map/Reduc…
Spark --基于DataFrame API实现KNN算法
Spark — 基于DataFrame API实现KNN算法 KNN简介 KNN(k-Nearest Neighbors)又称作k-近邻,核心思想用一句古话解释就是“近朱者赤,近墨者黑”,k-nn就是把未标记…
Spark Streaming和Spark Struct Streaming + Kafka环境部署测试
Kafka 单机环境搭建 从官网下载kafka_2.11-0.9.0.1和kafka_2.11-0.10.2.0两个版本, 这两个版本升级较大。而且对于Spark,有两个不同的jar包依赖,所以需要在测试环境中准备这两个…
Spark硬件配置及性能调研报告
Spark官方推荐硬件配置 存储系统 让Spark尽可能的与HDFS运行在同一节点上,最简单的方式是使用Sparkstandalone mode部署Spark,然后分配Spark和Hadoop的内存和CPU使用,避免冲突…
Spark on Yarn 之Python环境定制
1 动机 不同用户的应用程序使用的python版本及需要的python依赖可能存在不同,若每次缺少依赖都请op去update所有节点,对于大集群的维护来说相对比较困难,而且走变更流程等还影响spark 用户的工作效率。 …