1 准备 系统环境 cat /etc/centos-release CentOS Linux release 7.3.1611 (Core) 配置jdk8 wget --no-cookies --no-check-cer…
标签:spark
Spark Mllib学习经历
底层依托基础:Breeze BLAS 数据结构: Vector, Matrix,RowMatrix, IndexedRowMtrix,BlockMatrix,CoordinateMatrix 上述所有的数据结构底层都是使…
全面对比,深度解析 Ignite 与 Spark
经常有人拿 Ignite 和 Spark 进行比较,然后搞不清两者的区别和联系。Ignite 和 Spark,如果笼统归类,都可以归于内存计算平台,然而两者功能上虽然有交集,并且 Ignite 也会对 Spark 进行支…
Spark-GraphX
概要 GraphX是Spark的一个新模块,该模块用于图和图并行计算。在更高的层面上,GraphX通过引入一种新的图抽象—一个顶点和边均附有属性的有向多图—对Spark RDD进行了扩展。为支持图计算,GraphX提供了…
spark配置文件spark-env.sh
#!/usr/bin/env bash # # Licensed to the Apache Software Foundation (ASF) under one or more # contributor licen…
Spark SQL的一个坑
题图随便找的,图文无关。 我有一个DataFrame,叫它dataFrame。我想给dataFrame每一行加一个从0开始单调递增的id。非常贴心地,Spark SQL有这样一个函数 monotonically_incr…
14 Spark Streaming源码解读之State管理之updateStateByKey和mapWithState解密
Spark Streaming中的数据是源源不断流进来的,有时候我们需要计算一些周期性的统计,就不得不维护一下数据的状态。在Spark Streaming中状态管理有两种方式。一种是updateStateByKey,另一…
hadoop/spark节点动态调整
转自:hadoop2.7 动态新增节点和删除节点 转自:spark集群动态增加worker节点 hadoop安装过程中包括yarn的节点,hadoop有多个节点,spark也是多个节点,也区分master和slave
hadoop-3.1.2启动httpfs
最近有一个需求,要求使用httpfs读取数据,一开始看到httpfs这个词,第一感觉是不是多了个f,是不是https,后来百度一下,其实不然。 httpfs其实是使用http协议访问hdfs文件系统: HttpFS是一台…
spark-一些参数优化
Spark程序优化所需要关注的几个关键点——最主要的是数据序列化和内存优化 spark 设置相关参数问题1:reduce task数目不合适解决方法:需根据实际情况调节默认配置,调整方式是修改参数spark.defaul…
Spark机器学习库(MLlib)中文指南
Spark机器学习库(MLlib)指南 MLlib是Spark里的机器学习库。它的目标是使实用的机器学习算法可扩展并容易使用。它提供如下工具: 1.机器学习算法:常规机器学习算法包括分类、回归、聚类和协同过滤。 2.特征…
Spark教程(二)Spark连接MongoDB
原文: Spark教程(二)Spark连接MongoDB 如何导入数据 数据可能有各种格式,虽然常见的是HDFS,但是因为在Python爬虫中数据库用的比较多的是MongoDB,所以这里会重点说说如何用spark导入Mo…