如果无法运行pyspark/spark-shell,dfs, yarn, spark,三步都可能有问题 dfs启动应该能看到localhost:50070,如果有问题:1 core-site.xml的tmp目录,不清楚原…
分类:Spark
Spark RDD的默认分区数:(spark 2.1.0)
本文基于Spark 2.1.0版本 新手首先要明白几个配置: spark.default.parallelism:(默认的并发数) 如果配置文件spark-default.conf中没有显示的…
Spark数据倾斜
常见的数据倾斜是怎么造成的? Shuffle的时候,将各个节点上相同的key拉取到某个节点的一个task进行处理,比如按照key进行聚合或join等操作,如果某个key对应的数据量特别大的话,就会发生数据倾斜现象。数据倾…
Spark 1.6 内存管理模型( Unified Memory Management)分析
2016年1月4号 Spark 1.6 发布。提出了一个新的内存管理模型: Unified Memory Management。这篇文章会详细分析新的内存管理模型,方便大家做调优。 前言 新的内存模型是在这个Jira提出…
基于Spark的Druid 索引任务(druid-spark-batch)
1. 前言 随着Druid上的DataSource的数量和数据量增加,使用原来的 Hadoop MR索引任务已经不能满足对大数据量写入Druid的需求,急需找到更快的写入方式。就是本文介绍的druid-spark-bat…
[第九章]Job触发流程原理剖析
上一节我们是不是讲到,Driver,Application注册到Master上面后,Master中调用scheduler()进行资源调度,在这个里面通过LaunchDriver(),LaunchExecutor(),向W…
使用Spark DataFrame实现基于物品的协同过滤算法(ItemCF)
简书不支持Markdown Math语法,请移步https://glassywing.github.io/2018/04/10/spark-itemcf/ 简介 当前spark支持的协同过滤算法只有ALS(基于模型的协同…
【CSDN博客迁移】Spark机器学习过程梳理
最近半个月开始研究Spark的机器学习算法,由于工作原因,其实现在还没有真正开始机器学习算法的研究,只是做了前期大量的准备,现在把早年学习的,正在学习的和将要学习的一起做个梳理,整理一个Spark机器学习完整流程。本文推…
Spark-shell&Scala(三)map与flatMap
刚开始看Spark API 或者Scala编程的时候,发现函数式编程看的不太明白。又不想系统的看看Scala的书,就找找网上资料了,顺便做做笔记。 map map操作,按照Spark里面的说就是,将一个RDD中的每一个元…
spark core 2.2.1 触发Action操作
我们再RDD类中随便找一个action算子 def count(): Long = sc.runJob(this, Utils.getIteratorSize _).sum 可以看到调用了SparkContext的run…
Spark 教程
Ubuntu Spark 环境搭建 ipyhon中 import pyspark Scala 教程 新手福利:Apache Spark入门攻略 Spark入门实战系列–8.Spark MLlib(上)R…
spark-partitionBy
partitionBy 重新分区, repartition默认采用HashPartition分区, 关于数据倾斜https://www.jianshu.com/writer#/notebooks/11387253/not…