一、 安装环境 操作系统:Windows XP Prefessional SP2 服务器软件:Openfire 3.4.2 …
分类:Spark
spark运行模式之一:Spark的local模式安装部署
Spark运行模式 Spark 有很多种模式,最简单就是单机本地模式,还有单机伪分布式模式,复杂的则运行在集群中,目前能很好的运行在 Yarn和 Mesos 中,当然 Spark 还有自带的 Standalon…
Spark:spark df插入hive表后小文件数量多,如何合并?
在做spark开发过程中,时不时的就有可能遇到租户的hive库目录下的文件个数超出了最大限制问题。 一般情况下通过hive的参数设置: val conf = new SparkConf().setAppName("M…
【Hadoop篇】--Hadoop常用命令总结
一、前述 分享一篇hadoop的常用命令的总结,将常用的Hadoop命令总结如下。 二、具体 1、启动hadoop所有进程start-all.sh等价于start-dfs.sh + start-yarn.sh 但是一般不…
基于 Docker 构建 Hadoop 平台
基于Docker的Hadoop集群构建 0. 绪论 使用Docker搭建Hadoop技术平台,包括安装Docker、Java、Scala、Hadoop、 Hbase、Spark。 集群共有5台机器,主机名分别为 h01、…
spark 常用函数介绍(python)
以下是个人理解,一切以官网文档为准。 http://spark.apache.org/docs/latest/api/python/pyspark.html 在开始之前,我先介绍一下,RDD是什么? &nb…
Spark性能调优之资源分配
Spark性能调优之资源分配 性能优化王道就是给更多资源!机器更多了,CPU更多了,内存更多了,性能和速度上的提升,是显而易见的。基本上,在一定范围之内,增加资源与性能的提升,是…
基于Spark环境对比Python和Scala语言利弊
在数据挖掘中,Python和Scala语言都是极受欢迎的,本文总结两种语言在Spark环境各自特点。 本文翻译自 https://www.dezyre.com/article/Scala-vs-Python-…
让spark运行在mesos上 -- 分布式计算系统spark学习(五)
mesos集群部署参见上篇。 运行在mesos上面和 spark standalone模式的区别是: 1)stand alone 需要自己启动spark master 需要自己启动spark slaver(…
Spark:几种给Dataset增加列的方式、Dataset删除列、Dataset替换null列
几种给Dataset增加列的方式 首先创建一个DF对象: scala> spark.version res0: String = 2.2.0.cloudera1 scala> val df = spark.c…
Spark (Python版) 零基础学习笔记(一)—— 快速入门
由于Scala才刚刚开始学习,还是对python更为熟悉,因此在这记录一下自己的学习过程,主要内容来自于spark的官方帮助文档,这一节的地址为: http://spark.apache.org/docs/latest/…
Spark GraphX实例(1)
Spark GraphX是一个分布式的图处理框架。社交网络中,用户与用户之间会存在错综复杂的联系,如微信、QQ、微博的用户之间的好友、关注等关系,构成了一张巨大的图,单机无法处理,只能使用分布式图处理框架处理,Spark…