如果无法运行pyspark/spark-shell,dfs, yarn, spark,三步都可能有问题 dfs启动应该能看到localhost:50070,如果有问题:1 core-site.xml的tmp目录,不清楚原…
标签:spark
Spark RDD的默认分区数:(spark 2.1.0)
本文基于Spark 2.1.0版本 新手首先要明白几个配置: spark.default.parallelism:(默认的并发数) 如果配置文件spark-default.conf中没有显示的…
spark jdbc(mysql) 读取并发度优化
很多人在spark中使用默认提供的jdbc方法时,在数据库数据较大时经常发现任务 hang 住,其实是单线程任务过重导致,这时候需要提高读取的并发度。 下文以 mysql 为例进行说明。 在spark中使用jdbc 在 …
Hive常用设置
切换计算引擎(Hive CLI内设置) 设置MapReduce为计算引擎 set hive.execution.engine=mr; 设置Spark为计算引擎 set hive.execution.engine=spar…
Spark On Hive 部署和配置
Spark On Hive,通过spark sql模块访问和使用Hive,默认Spark预编译(pre-built)版不包含hive相关依赖,并不支持此功能,因此需要对spark源码进行重新编译,并进行相关的配置,下面是…
Spark 1.6 内存管理模型( Unified Memory Management)分析
2016年1月4号 Spark 1.6 发布。提出了一个新的内存管理模型: Unified Memory Management。这篇文章会详细分析新的内存管理模型,方便大家做调优。 前言 新的内存模型是在这个Jira提出…
基于Spark的Druid 索引任务(druid-spark-batch)
1. 前言 随着Druid上的DataSource的数量和数据量增加,使用原来的 Hadoop MR索引任务已经不能满足对大数据量写入Druid的需求,急需找到更快的写入方式。就是本文介绍的druid-spark-bat…
使用Spark DataFrame实现基于物品的协同过滤算法(ItemCF)
简书不支持Markdown Math语法,请移步https://glassywing.github.io/2018/04/10/spark-itemcf/ 简介 当前spark支持的协同过滤算法只有ALS(基于模型的协同…
【CSDN博客迁移】Spark机器学习过程梳理
最近半个月开始研究Spark的机器学习算法,由于工作原因,其实现在还没有真正开始机器学习算法的研究,只是做了前期大量的准备,现在把早年学习的,正在学习的和将要学习的一起做个梳理,整理一个Spark机器学习完整流程。本文推…
Spark-shell&Scala(三)map与flatMap
刚开始看Spark API 或者Scala编程的时候,发现函数式编程看的不太明白。又不想系统的看看Scala的书,就找找网上资料了,顺便做做笔记。 map map操作,按照Spark里面的说就是,将一个RDD中的每一个元…
Spark 教程
Ubuntu Spark 环境搭建 ipyhon中 import pyspark Scala 教程 新手福利:Apache Spark入门攻略 Spark入门实战系列–8.Spark MLlib(上)R…
[第二章] spark-yarn原理分析
在上一篇文章里我们主要是分析了spark standlane内核的执行原理,本节主要是对spark在yarn上的执行原理进行分析。 spark在yarn上执行分两种: 1:spark yarn-cluster 2:spa…