分类：Spark

搭建Spark集群(一)——使用VirtualBox建立虚拟机

环境准备一台主机（看个人的配置，当然配置越高性能越好，我自己的是i5+16G+1TB 64位 windows7系统） CentOS 7.0安装文件 hadoop-2.6.0.tar.gz、scala-2.10.5.tg…

实时计算上篇文章大致介绍了离线计算MapReduce和Spark，但是无法满足对实时性要求较高的业务，下面我们来了解一下实时计算。离线和批量、实时和流式在聊实时计算之前，先说一下我对离线和批量、实时和流式的一些看法…

reduceByKey 官方文档描述： Merge the values for each key using an associative reduce function. This will also perform…

简书不支持Markdown Math语法，请移步https://glassywing.github.io/2018/04/10/spark-itemcf/ 简介当前spark支持的协同过滤算法只有ALS(基于模型的协同…

背景项 pandas spark 工作方式单机，无法处理大量数据分布式，能处理大量数据存储方式单机缓存可以调用 persist/cache 分布式缓存是否可变是否 index索引自动创建无索引行结…

部署把下载的bin-all.tgz上传到服务器，解压放到自己常用的目录下。为了使用spark.read.jdbc功能，需要上传一份mysql connector jar到lib/interpreter下，否则spar…

配置所有运行节点安装 pyarrow ，需要 >= 0.8 为什么会有 pandas UDF 在过去的几年中，python 正在成为数据分析师的默认语言。一些类似 pandas,numpy,statsmodel,…

一般在开发spark程序的时候，都需要创建一些数据作为临时表来使用，在实际生产中使用HiveSQL直接获取数据，因为在开发阶段都是在单机上，无法连接Hive，所以必须使用临时表代替，需要在服务器上部署的时候将SQLCon…

1、scala 语言有什么特点，相比java有什么优点? 2、什么是Scala的伴生类和伴生对象? 3、spark有什么特点，处理大数据有什么优势? 4、Spark技术栈有哪些组件，每个组件都有什么功能，适合什么应用场景…

资源下载： https://pan.baidu.com/s/1ge3cajh 密码: 6ytk 安装XMPP集成环境将下载好的xampp-osx根据提示进行安装并打开。 F4648516-D77F-4DF4-9031-…

本文为 Spark 2.0 版本的源码分析，其他版本可能会有所不同 TaskScheduler 作为资源调度器的一个重要职责就在：集群可用资源发生变化（比如有新增的 executor，有 executor lost 等…

大数据集群环境说明 Spark版本：2.0.2 Kafka版本：0.9.1 Linux系统：CentOS6.5 场景做Spark Streaming开发，在Win7下使用IDE进行开发，希望在本地IDEA上远程连接服务…