标签：spark

[bigdata] Spark RDD整理

1. RDD是什么RDD：Spark的核心概念是RDD (resilient distributed dataset)，指的是一个只读的，可分区的弹性分布式数据集，这个数据集的全部或部分可以缓存在内存中，在多次计算间可重…

摘要：Spark是继Hadoop之后的新一代大数据分布式处理框架，由UC Berkeley的Matei Zaharia主导开发。我只能说是神一样的人物造就的神…

字典方法返回值方法详情 .clear() None 清空字典 .copy() dict 浅拷贝 .fromkeys(iterable, value=None) dict 静态方法, 以iterable为key, va…

K-Means算法是一种基于距离的聚类算法，采用迭代的方法，计算出K个聚类中心，把若干个点聚成K类。 MLlib实现K-Means算法的原理是，运行多个K-Means算法，每个称为run，返回最好的那个聚类的类簇中心。初…

在YARN上运行Spark 在Spark0.6.0版本开始支持YARN模式，随后的版本在逐渐地完善。在YARN上启动Spark 确保HADOOP_CONF_DIR或YARN_CONF_DIR属性的值已经指向了Hadoo…

安装java环境 spark需要用到java环境，如果在终端敲入java -version命令提示找不到java命令。这说明还没有安装java环境。安装方式有很多中，最简单的使用apt安装： sudo apt insta…

Spark是一个计算框架 Hadoop是包含计算框架MapReducehe分布式文件系统HDFS。 Spark是MapReduce的替代方案，而且兼容HDFS、Hive等分布式存储系统，可融入Hadoop生…

参考, Spark源码分析之-Storage模块对于storage, 为何Spark需要storage模块？为了cache RDD Spark的特点就是可以将RDD cache在memory或disk中，RDD是由pa…

spark的jdbcRDD可以让你连接到jdbc数据库上，以数据库表里的数据构建dataframe，非常方便。如下python代码： dataframe = spark.read \ .jdbc(“jdbc:…

一、SparkSQL介绍 Hive是Shark的前身，Shark是SparkSQL的前身,SparkSQL产生的根本原因是其完全脱离了Hive的限制。 1.spark sql的特点 1）引入了新的RDD类型SchemaR…

　　　　在矩阵分解在协同过滤推荐算法中的应用中，我们对矩阵分解在推荐算法中的应用原理做了总结，这里我们就从实践的角度来用Spark学习矩阵分解推荐算法。 1. Spark推荐算法概述　　　　在Spark MLlib中，…

除本人同意外，严禁一切转载，徽沪一郎。概要编写了独立运行的Spark Application之后，需要将其提交到Spark Cluster中运行，一般会采用spark-submit来进行应用的提交，在使用spark-…