分类：Spark

spark运行问题解决

如果无法运行pyspark/spark-shell，dfs, yarn, spark，三步都可能有问题 dfs启动应该能看到localhost:50070，如果有问题：1 core-site.xml的tmp目录，不清楚原…

本文基于Spark 2.1.0版本新手首先要明白几个配置： spark.default.parallelism：（默认的并发数）如果配置文件spark-default.conf中没有显示的…

常见的数据倾斜是怎么造成的？ Shuffle的时候，将各个节点上相同的key拉取到某个节点的一个task进行处理，比如按照key进行聚合或join等操作，如果某个key对应的数据量特别大的话，就会发生数据倾斜现象。数据倾…

2016年1月4号 Spark 1.6 发布。提出了一个新的内存管理模型： Unified Memory Management。这篇文章会详细分析新的内存管理模型，方便大家做调优。前言新的内存模型是在这个Jira提出…

1. 前言随着Druid上的DataSource的数量和数据量增加，使用原来的 Hadoop MR索引任务已经不能满足对大数据量写入Druid的需求，急需找到更快的写入方式。就是本文介绍的druid-spark-bat…

上一节我们是不是讲到，Driver，Application注册到Master上面后，Master中调用scheduler()进行资源调度，在这个里面通过LaunchDriver(),LaunchExecutor()，向W…

简书不支持Markdown Math语法，请移步https://glassywing.github.io/2018/04/10/spark-itemcf/ 简介当前spark支持的协同过滤算法只有ALS(基于模型的协同…

最近半个月开始研究Spark的机器学习算法，由于工作原因，其实现在还没有真正开始机器学习算法的研究，只是做了前期大量的准备，现在把早年学习的，正在学习的和将要学习的一起做个梳理，整理一个Spark机器学习完整流程。本文推…

刚开始看Spark API 或者Scala编程的时候，发现函数式编程看的不太明白。又不想系统的看看Scala的书，就找找网上资料了，顺便做做笔记。 map map操作，按照Spark里面的说就是，将一个RDD中的每一个元…

我们再RDD类中随便找一个action算子 def count(): Long = sc.runJob(this, Utils.getIteratorSize _).sum 可以看到调用了SparkContext的run…

Ubuntu Spark 环境搭建 ipyhon中 import pyspark Scala 教程新手福利：Apache Spark入门攻略 Spark入门实战系列–8.Spark MLlib（上）R…

partitionBy 重新分区， repartition默认采用HashPartition分区，关于数据倾斜https://www.jianshu.com/writer#/notebooks/11387253/not…