【注】该系列文章以及使用到安装包/测试数据 可以在《倾情大奉送–Spark入门实战系列》获取 1、编译Spark Spark可以通过SBT和Maven两种方式进行编译,再通过make-distribution…
标签:spark
Spark入门实战系列--3.Spark编程模型(上)--编程模型及SparkShell实战
【注】该系列文章以及使用到安装包/测试数据 可以在《倾情大奉送–Spark入门实战系列》获取 1、Spark编程模型 1.1 术语定义 l应用程序(Application): 基于Spark的用户程…
Spark入门实战系列--3.Spark编程模型(下)--IDEA搭建及实战
【注】该系列文章以及使用到安装包/测试数据 可以在《倾情大奉送–Spark入门实战系列》获取 1、 安装IntelliJ IDEA IDEA 全称 IntelliJ IDEA,是java语言开发的集成环境,I…
Spark入门实战系列--4.Spark运行架构
【注】该系列文章以及使用到安装包/测试数据 可以在《倾情大奉送–Spark入门实战系列》获取 1、 Spark运行架构 1.1 术语定义 lApplication:Spark…
Spark入门实战系列--5.Hive(下)--Hive实战
【注】该系列文章以及使用到安装包/测试数据 可以在《倾情大奉送–Spark入门实战系列》获取 1、Hive操作演示 1.1 内部表 1.1.1 创建表并加载数据 第一步 &nbs…
Spark入门实战系列--6.SparkSQL(上)--SparkSQL简介
【注】该系列文章以及使用到安装包/测试数据 可以在《倾情大奉送–Spark入门实战系列》获取 1、SparkSQL的发展历程 1.1 Hive and Shark SparkSQL的前身是Shark…
Spark入门实战系列--6.SparkSQL(下)--Spark实战应用
【注】该系列文章以及使用到安装包/测试数据 可以在《倾情大奉送–Spark入门实战系列》获取 1、运行环境说明 1.1 硬软件环境 l 主机操作系统:Windows 64位,双核4线程,…
Spark入门实战系列--7.Spark Streaming(上)--实时流计算Spark Streaming原理介绍
【注】该系列文章以及使用到安装包/测试数据 可以在《倾情大奉送–Spark入门实战系列》获取 1、Spark Streaming简介 1.1 概述 Spark Streaming 是Spark核心A…
Spark入门实战系列--7.Spark Streaming(下)--实时流计算Spark Streaming实战
【注】该系列文章以及使用到安装包/测试数据 可以在《倾情大奉送–Spark入门实战系列》获取 1、实例演示 1.1 流数据模拟器 1.1.1 流数据说明 在实例演示中模拟实际情况,需要源源…
Spark入门实战系列--8.Spark MLlib(上)--机器学习及SparkMLlib简介
【注】该系列文章以及使用到安装包/测试数据 可以在《倾情大奉送–Spark入门实战系列》获取 1、机器学习概念 1.1 机器学习的定义 在维基百科上对机器学习提出以下几种定义: l“机器学习是一门人…
Spark入门实战系列--8.Spark MLlib(下)--机器学习库SparkMLlib实战
【注】该系列文章以及使用到安装包/测试数据 可以在《倾情大奉送–Spark入门实战系列》获取 1、MLlib实例 1.1 聚类实例 1.1.1 算法说明 聚类(Cluster analys…
Spark入门实战系列--9.Spark图计算GraphX介绍及实例
【注】该系列文章以及使用到安装包/测试数据 可以在《倾情大奉送–Spark入门实战系列》获取 1、GraphX介绍 1.1 GraphX应用背景 Spark GraphX是一个分布式图处理框架,它是…