简介 MLlib是Spark提供提供机器学习的库,专为在集群上并行运行的情况而设计。 MLlib包含很多机器学习算法,可在Spark支持的所有编程语言中使用。 MLlib设计理念是将数据以RDD的形式表示,然后在分布式数…
标签:向量
[Spark MLlib] MLlib基本数据类型(1)
MLLib提供了一系列基本数据类型以支持底层的机器学习算法。 主要的数据类型包括:标注点(Labeled Point)、本地向量(Local Vector)、、本地矩阵、分布式矩阵等。单机模式存储的本地向量与矩阵,以及基…