标签：spark

spark运行问题解决

如果无法运行pyspark/spark-shell，dfs, yarn, spark，三步都可能有问题 dfs启动应该能看到localhost:50070，如果有问题：1 core-site.xml的tmp目录，不清楚原…

本文基于Spark 2.1.0版本新手首先要明白几个配置： spark.default.parallelism：（默认的并发数）如果配置文件spark-default.conf中没有显示的…

很多人在spark中使用默认提供的jdbc方法时，在数据库数据较大时经常发现任务 hang 住，其实是单线程任务过重导致，这时候需要提高读取的并发度。下文以 mysql 为例进行说明。在spark中使用jdbc 在 …

切换计算引擎(Hive CLI内设置) 设置MapReduce为计算引擎 set hive.execution.engine=mr; 设置Spark为计算引擎 set hive.execution.engine=spar…

Spark On Hive，通过spark sql模块访问和使用Hive，默认Spark预编译(pre-built)版不包含hive相关依赖，并不支持此功能，因此需要对spark源码进行重新编译，并进行相关的配置，下面是…

2016年1月4号 Spark 1.6 发布。提出了一个新的内存管理模型： Unified Memory Management。这篇文章会详细分析新的内存管理模型，方便大家做调优。前言新的内存模型是在这个Jira提出…

1. 前言随着Druid上的DataSource的数量和数据量增加，使用原来的 Hadoop MR索引任务已经不能满足对大数据量写入Druid的需求，急需找到更快的写入方式。就是本文介绍的druid-spark-bat…

简书不支持Markdown Math语法，请移步https://glassywing.github.io/2018/04/10/spark-itemcf/ 简介当前spark支持的协同过滤算法只有ALS(基于模型的协同…

最近半个月开始研究Spark的机器学习算法，由于工作原因，其实现在还没有真正开始机器学习算法的研究，只是做了前期大量的准备，现在把早年学习的，正在学习的和将要学习的一起做个梳理，整理一个Spark机器学习完整流程。本文推…

刚开始看Spark API 或者Scala编程的时候，发现函数式编程看的不太明白。又不想系统的看看Scala的书，就找找网上资料了，顺便做做笔记。 map map操作，按照Spark里面的说就是，将一个RDD中的每一个元…

Ubuntu Spark 环境搭建 ipyhon中 import pyspark Scala 教程新手福利：Apache Spark入门攻略 Spark入门实战系列–8.Spark MLlib（上）R…

在上一篇文章里我们主要是分析了spark standlane内核的执行原理，本节主要是对spark在yarn上的执行原理进行分析。 spark在yarn上执行分两种： 1：spark yarn-cluster 2：spa…