标签：spark

spark单机环境搭建以及快速入门

1 准备系统环境 cat /etc/centos-release CentOS Linux release 7.3.1611 (Core) 配置jdk8 wget --no-cookies --no-check-cer…

底层依托基础：Breeze BLAS 数据结构: Vector， Matrix，RowMatrix, IndexedRowMtrix,BlockMatrix,CoordinateMatrix 上述所有的数据结构底层都是使…

经常有人拿 Ignite 和 Spark 进行比较，然后搞不清两者的区别和联系。Ignite 和 Spark，如果笼统归类，都可以归于内存计算平台，然而两者功能上虽然有交集，并且 Ignite 也会对 Spark 进行支…

概要 GraphX是Spark的一个新模块，该模块用于图和图并行计算。在更高的层面上，GraphX通过引入一种新的图抽象—一个顶点和边均附有属性的有向多图—对Spark RDD进行了扩展。为支持图计算，GraphX提供了…

#!/usr/bin/env bash # # Licensed to the Apache Software Foundation (ASF) under one or more # contributor licen…

题图随便找的，图文无关。我有一个DataFrame，叫它dataFrame。我想给dataFrame每一行加一个从0开始单调递增的id。非常贴心地，Spark SQL有这样一个函数 monotonically_incr…

Spark Streaming中的数据是源源不断流进来的，有时候我们需要计算一些周期性的统计，就不得不维护一下数据的状态。在Spark Streaming中状态管理有两种方式。一种是updateStateByKey,另一…

转自：hadoop2.7 动态新增节点和删除节点转自：spark集群动态增加worker节点 hadoop安装过程中包括yarn的节点，hadoop有多个节点，spark也是多个节点，也区分master和slave

最近有一个需求，要求使用httpfs读取数据，一开始看到httpfs这个词，第一感觉是不是多了个f，是不是https，后来百度一下，其实不然。 httpfs其实是使用http协议访问hdfs文件系统： HttpFS是一台…

Spark程序优化所需要关注的几个关键点——最主要的是数据序列化和内存优化 spark 设置相关参数问题1：reduce task数目不合适解决方法：需根据实际情况调节默认配置，调整方式是修改参数spark.defaul…

Spark机器学习库(MLlib)指南 MLlib是Spark里的机器学习库。它的目标是使实用的机器学习算法可扩展并容易使用。它提供如下工具： 1.机器学习算法：常规机器学习算法包括分类、回归、聚类和协同过滤。 2.特征…

原文： Spark教程（二）Spark连接MongoDB 如何导入数据数据可能有各种格式，虽然常见的是HDFS，但是因为在Python爬虫中数据库用的比较多的是MongoDB，所以这里会重点说说如何用spark导入Mo…