分类：Spark

《从0到1学习Spark》--DataFrame和Dataset探秘

昨天小强带着大家了解了Spark SQL的由来、Spark SQL的架构和SparkSQL四大组件：Spark SQL、DataSource Api、DataFrame Api和Dataset Api。今天小强和大家一起…

我的原创地址：https://dongkelun.com/2018/06/09/sparkArchitecturePrinciples/ 前言本文总结了Spark架构原理,其中主要包括五个组件：Driver、Maste…

Shuffle分类一个作业经过spark的DAGSchedule调度器划分为多个stage，同时有些下游的stage依赖上游的stage，这样会导致上游的stage做map的工作，下游的stage做reduce的工作。…

python python假设检验(很全)：python假设检验统计功能包：scipy 统计模型包：statsmodels 画图包：bokeh seaborn …

1、在搭建好hadoop，spark之后，提交第一次任务的时候就出现了错误。在任务提交并创建之后，从8088看，任务一直处于ACCEPTED状态，而在shell中一直重复如下信息： 17/04/03 16:43:24…

broadcast 官方文档描述： Broadcast a read-only variable to the cluster, returning a [[org.apache.spark.broadcast.Broa…

第114课:SparkStreaming+Kafka+Spark SQL+TopN+Mysql+KafkaOffsetMonitor电商广告点击综合案例实战(详细内幕版本) – 段智华的博客 – …

以下的话是由Apache Spark committer的Reynold Xin阐述。　　从很多方面来讲，Spark都是MapReduce 模式的最好实现。比如从程序抽象的角度来看：　　1、他抽象出Map/Reduc…

Spark — 基于DataFrame API实现KNN算法 KNN简介 KNN（k-Nearest Neighbors）又称作k-近邻，核心思想用一句古话解释就是“近朱者赤，近墨者黑”，k-nn就是把未标记…

Kafka 单机环境搭建从官网下载kafka_2.11-0.9.0.1和kafka_2.11-0.10.2.0两个版本，这两个版本升级较大。而且对于Spark，有两个不同的jar包依赖，所以需要在测试环境中准备这两个…

Spark官方推荐硬件配置存储系统让Spark尽可能的与HDFS运行在同一节点上，最简单的方式是使用Sparkstandalone mode部署Spark，然后分配Spark和Hadoop的内存和CPU使用，避免冲突…

1 动机不同用户的应用程序使用的python版本及需要的python依赖可能存在不同，若每次缺少依赖都请op去update所有节点，对于大集群的维护来说相对比较困难，而且走变更流程等还影响spark 用户的工作效率。 …