环境准备 一台主机(看个人的配置,当然配置越高性能越好,我自己的是i5+16G+1TB 64位 windows7系统) CentOS 7.0安装文件 hadoop-2.6.0.tar.gz、scala-2.10.5.tg…
分类:Spark
实时计算——聊一聊我所经历的计算框架
实时计算 上篇文章大致介绍了离线计算MapReduce和Spark,但是无法满足对实时性要求较高的业务,下面我们来了解一下实时计算。 离线和批量、实时和流式 在聊实时计算之前,先说一下我对离线和批量、实时和流式的一些看法…
【Spark Java API】Transformation(11)—reduceByKey、foldByKey
reduceByKey 官方文档描述: Merge the values for each key using an associative reduce function. This will also perform…
使用Spark DataFrame实现基于物品的协同过滤算法(ItemCF)
简书不支持Markdown Math语法,请移步https://glassywing.github.io/2018/04/10/spark-itemcf/ 简介 当前spark支持的协同过滤算法只有ALS(基于模型的协同…
在spark dataFrame 中使用 pandas dataframe
背景 项 pandas spark 工作方式 单机,无法处理大量数据 分布式,能处理大量数据 存储方式 单机缓存 可以调用 persist/cache 分布式缓存 是否可变 是 否 index索引 自动创建 无索引 行结…
使用Zeppelin代替spark-shell
部署 把下载的bin-all.tgz上传到服务器,解压放到自己常用的目录下。 为了使用spark.read.jdbc功能,需要上传一份mysql connector jar到lib/interpreter下,否则spar…
PySpark pandas udf
配置 所有运行节点安装 pyarrow ,需要 >= 0.8 为什么会有 pandas UDF 在过去的几年中,python 正在成为数据分析师的默认语言。一些类似 pandas,numpy,statsmodel,…
Spark_SQL-创建临时表
一般在开发spark程序的时候,都需要创建一些数据作为临时表来使用,在实际生产中使用HiveSQL直接获取数据,因为在开发阶段都是在单机上,无法连接Hive,所以必须使用临时表代替,需要在服务器上部署的时候将SQLCon…
Spark常见面试题
1、scala 语言有什么特点,相比java有什么优点? 2、什么是Scala的伴生类和伴生对象? 3、spark有什么特点,处理大数据有什么优势? 4、Spark技术栈有哪些组件,每个组件都有什么功能,适合什么应用场景…
XMPP: Openfire + Spark 实现即时通讯
资源下载: https://pan.baidu.com/s/1ge3cajh 密码: 6ytk 安装XMPP集成环境 将下载好的xampp-osx根据提示进行安装并打开。 F4648516-D77F-4DF4-9031-…
Spark Task 的执行流程① - 分配 tasks 给 executors
本文为 Spark 2.0 版本的源码分析,其他版本可能会有所不同 TaskScheduler 作为资源调度器的一个重要职责就在: 集群可用资源发生变化(比如有新增的 executor,有 executor lost 等…
Windows下idea远程调试Spark Streaming接收Kafka数据
大数据集群环境说明 Spark版本:2.0.2 Kafka版本:0.9.1 Linux系统:CentOS6.5 场景 做Spark Streaming开发,在Win7下使用IDE进行开发,希望在本地IDEA上远程连接服务…