在YARN上运行Spark 在Spark0.6.0版本开始支持YARN模式,随后的版本在逐渐地完善。 在YARN上启动Spark 确保HADOOP_CONF_DIR或YARN_CONF_DIR属性的值已经指向了Hadoo…
分类:Spark
2018-03-16:ubuntu安装pyspark
安装java环境 spark需要用到java环境,如果在终端敲入java -version命令提示找不到java命令。这说明还没有安装java环境。安装方式有很多中,最简单的使用apt安装: sudo apt insta…
Spark与Hadoop关系
Spark是一个计算框架 Hadoop是包含计算框架MapReducehe分布式文件系统HDFS。 Spark是MapReduce的替代方案,而且兼容HDFS、Hive等分布式存储系统,可融入Hadoop生…
Spark源码分析 – BlockManager
参考, Spark源码分析之-Storage模块 对于storage, 为何Spark需要storage模块?为了cache RDD Spark的特点就是可以将RDD cache在memory或disk中,RDD是由pa…
使用spark jdbcRDD的坑
spark的jdbcRDD可以让你连接到jdbc数据库上,以数据库表里的数据构建dataframe,非常方便。如下python代码: dataframe = spark.read \ .jdbc(“jdbc:…
Spark SQL总结
一、SparkSQL介绍 Hive是Shark的前身,Shark是SparkSQL的前身,SparkSQL产生的根本原因是其完全脱离了Hive的限制。 1.spark sql的特点 1)引入了新的RDD类型SchemaR…
用Spark学习矩阵分解推荐算法
在矩阵分解在协同过滤推荐算法中的应用中,我们对矩阵分解在推荐算法中的应用原理做了总结,这里我们就从实践的角度来用Spark学习矩阵分解推荐算法。 1. Spark推荐算法概述 在Spark MLlib中,…
Apache Spark技术实战之6 -- spark-submit常见问题及其解决
除本人同意外,严禁一切转载,徽沪一郎。 概要 编写了独立运行的Spark Application之后,需要将其提交到Spark Cluster中运行,一般会采用spark-submit来进行应用的提交,在使用spark-…
Spark 2017欧洲技术峰会摘要(企业分类)
下载全部视频和PPT,请关注公众号(bigdata_summit),并点击“视频下载”菜单。 Experimental Design for Distributed Machine Learning by Myles B…
Oozie分布式任务的工作流——Spark篇
Spark是现在应用最广泛的分布式计算框架,oozie支持在它的调度中执行spark。在我的日常工作中,一部分工作就是基于oozie维护好每天的spark离线任务,合理的设计工作流并分配适合的参数对于spark的稳定运行…
只要一小时,零基础入门Docker
Docker是什么? Docker是一个虚拟环境容器,可以将你的开发环境、代码、配置文件等一并打包到这个容器中,并发布和应用到任意平台中。比如,你在本地用Python开发网站后台,开发测试完成后,就可以将Python3及…
Spark DataFrame中的join使用说明
spark sql 中join的类型 Spark DataFrame中join与SQL很像,都有inner join, left join, right join, full join; 类型 说明 inner join…