经常有人拿 Ignite 和 Spark 进行比较,然后搞不清两者的区别和联系。Ignite 和 Spark,如果笼统归类,都可以归于内存计算平台,然而两者功能上虽然有交集,并且 Ignite 也会对 Spark 进行支…
分类:Spark
【Spark Java API】Action(3)—foreach、foreachPartition、lookup
foreach 官方文档描述: Applies a function f to all elements of this RDD. 函数原型: def foreach(f: VoidFunction[T]) ** for…
Spark-GraphX
概要 GraphX是Spark的一个新模块,该模块用于图和图并行计算。在更高的层面上,GraphX通过引入一种新的图抽象—一个顶点和边均附有属性的有向多图—对Spark RDD进行了扩展。为支持图计算,GraphX提供了…
spark配置文件spark-env.sh
#!/usr/bin/env bash # # Licensed to the Apache Software Foundation (ASF) under one or more # contributor licen…
Spark SQL的一个坑
题图随便找的,图文无关。 我有一个DataFrame,叫它dataFrame。我想给dataFrame每一行加一个从0开始单调递增的id。非常贴心地,Spark SQL有这样一个函数 monotonically_incr…
14 Spark Streaming源码解读之State管理之updateStateByKey和mapWithState解密
Spark Streaming中的数据是源源不断流进来的,有时候我们需要计算一些周期性的统计,就不得不维护一下数据的状态。在Spark Streaming中状态管理有两种方式。一种是updateStateByKey,另一…
hadoop/spark节点动态调整
转自:hadoop2.7 动态新增节点和删除节点 转自:spark集群动态增加worker节点 hadoop安装过程中包括yarn的节点,hadoop有多个节点,spark也是多个节点,也区分master和slave
hadoop-3.1.2启动httpfs
最近有一个需求,要求使用httpfs读取数据,一开始看到httpfs这个词,第一感觉是不是多了个f,是不是https,后来百度一下,其实不然。 httpfs其实是使用http协议访问hdfs文件系统: HttpFS是一台…
spark-一些参数优化
Spark程序优化所需要关注的几个关键点——最主要的是数据序列化和内存优化 spark 设置相关参数问题1:reduce task数目不合适解决方法:需根据实际情况调节默认配置,调整方式是修改参数spark.defaul…
Spark机器学习库(MLlib)中文指南
Spark机器学习库(MLlib)指南 MLlib是Spark里的机器学习库。它的目标是使实用的机器学习算法可扩展并容易使用。它提供如下工具: 1.机器学习算法:常规机器学习算法包括分类、回归、聚类和协同过滤。 2.特征…
Spark教程(二)Spark连接MongoDB
原文: Spark教程(二)Spark连接MongoDB 如何导入数据 数据可能有各种格式,虽然常见的是HDFS,但是因为在Python爬虫中数据库用的比较多的是MongoDB,所以这里会重点说说如何用spark导入Mo…
Spark1.6.3 cache()和persist()
RDD的持久化也就是说假如我们从hdfs读取文件,形成RDD。当我们对RDD进行持久化操作之后, ,然后再针对该RDD进行action操作(这里我们假设执行count操作,中间可能经历了一系列transformation…