1. RDD是什么RDD:Spark的核心概念是RDD (resilient distributed dataset),指的是一个只读的,可分区的弹性分布式数据集,这个数据集的全部或部分可以缓存在内存中,在多次计算间可重…
标签:spark
Spark安装与学习
摘要:Spark是继Hadoop之后的新一代大数据分布式处理框架,由UC Berkeley的Matei Zaharia主导开发。我只能说是神一样的人物造就的神…
python数据类型--字典
字典方法 返回值 方法详情 .clear() None 清空字典 .copy() dict 浅拷贝 .fromkeys(iterable, value=None) dict 静态方法, 以iterable为key, va…
Spark实现K-Means算法
K-Means算法是一种基于距离的聚类算法,采用迭代的方法,计算出K个聚类中心,把若干个点聚成K类。 MLlib实现K-Means算法的原理是,运行多个K-Means算法,每个称为run,返回最好的那个聚类的类簇中心。初…
【原】Spark on YARN
在YARN上运行Spark 在Spark0.6.0版本开始支持YARN模式,随后的版本在逐渐地完善。 在YARN上启动Spark 确保HADOOP_CONF_DIR或YARN_CONF_DIR属性的值已经指向了Hadoo…
2018-03-16:ubuntu安装pyspark
安装java环境 spark需要用到java环境,如果在终端敲入java -version命令提示找不到java命令。这说明还没有安装java环境。安装方式有很多中,最简单的使用apt安装: sudo apt insta…
Spark与Hadoop关系
Spark是一个计算框架 Hadoop是包含计算框架MapReducehe分布式文件系统HDFS。 Spark是MapReduce的替代方案,而且兼容HDFS、Hive等分布式存储系统,可融入Hadoop生…
Spark源码分析 – BlockManager
参考, Spark源码分析之-Storage模块 对于storage, 为何Spark需要storage模块?为了cache RDD Spark的特点就是可以将RDD cache在memory或disk中,RDD是由pa…
使用spark jdbcRDD的坑
spark的jdbcRDD可以让你连接到jdbc数据库上,以数据库表里的数据构建dataframe,非常方便。如下python代码: dataframe = spark.read \ .jdbc(“jdbc:…
Spark SQL总结
一、SparkSQL介绍 Hive是Shark的前身,Shark是SparkSQL的前身,SparkSQL产生的根本原因是其完全脱离了Hive的限制。 1.spark sql的特点 1)引入了新的RDD类型SchemaR…
用Spark学习矩阵分解推荐算法
在矩阵分解在协同过滤推荐算法中的应用中,我们对矩阵分解在推荐算法中的应用原理做了总结,这里我们就从实践的角度来用Spark学习矩阵分解推荐算法。 1. Spark推荐算法概述 在Spark MLlib中,…
Apache Spark技术实战之6 -- spark-submit常见问题及其解决
除本人同意外,严禁一切转载,徽沪一郎。 概要 编写了独立运行的Spark Application之后,需要将其提交到Spark Cluster中运行,一般会采用spark-submit来进行应用的提交,在使用spark-…