分类：Spark

Openfire+Spark+Spark Web安装配置(一)

一、安装环境操作系统：Windows XP Prefessional SP2 服务器软件：Openfire 3.4.2 …

Spark运行模式 Spark 有很多种模式，最简单就是单机本地模式，还有单机伪分布式模式，复杂的则运行在集群中，目前能很好的运行在 Yarn和 Mesos 中，当然 Spark 还有自带的 Standalon…

　　在做spark开发过程中，时不时的就有可能遇到租户的hive库目录下的文件个数超出了最大限制问题。一般情况下通过hive的参数设置： val conf = new SparkConf().setAppName("M…

一、前述分享一篇hadoop的常用命令的总结，将常用的Hadoop命令总结如下。二、具体 1、启动hadoop所有进程start-all.sh等价于start-dfs.sh + start-yarn.sh 但是一般不…

基于Docker的Hadoop集群构建 0. 绪论使用Docker搭建Hadoop技术平台，包括安装Docker、Java、Scala、Hadoop、 Hbase、Spark。集群共有5台机器，主机名分别为 h01、…

以下是个人理解，一切以官网文档为准。 http://spark.apache.org/docs/latest/api/python/pyspark.html 在开始之前，我先介绍一下，RDD是什么？ &nb…

Spark性能调优之资源分配性能优化王道就是给更多资源！机器更多了，CPU更多了，内存更多了，性能和速度上的提升，是显而易见的。基本上，在一定范围之内，增加资源与性能的提升，是…

在数据挖掘中，Python和Scala语言都是极受欢迎的，本文总结两种语言在Spark环境各自特点。本文翻译自 https://www.dezyre.com/article/Scala-vs-Python-…

mesos集群部署参见上篇。运行在mesos上面和 spark standalone模式的区别是： 1）stand alone 需要自己启动spark master 需要自己启动spark slaver（…

几种给Dataset增加列的方式首先创建一个DF对象： scala> spark.version res0: String = 2.2.0.cloudera1 scala> val df = spark.c…

由于Scala才刚刚开始学习，还是对python更为熟悉，因此在这记录一下自己的学习过程，主要内容来自于spark的官方帮助文档，这一节的地址为： http://spark.apache.org/docs/latest/…

Spark GraphX是一个分布式的图处理框架。社交网络中，用户与用户之间会存在错综复杂的联系，如微信、QQ、微博的用户之间的好友、关注等关系，构成了一张巨大的图，单机无法处理，只能使用分布式图处理框架处理，Spark…