前言: cloudera自带的Spark版本较低,通过Apache Spark官网下载并安装Spark 2.1版本,分为单机和集群两种安装部署方式。 一、下载Spark 2.1 先查看hadoop版本,下面查询结果显示为…
标签:spark
Spark整合HBase(自定义HBase DataSource)
背景 Spark支持多种数据源,但是Spark对HBase 的读写都没有相对优雅的api,但spark和HBase整合的场景又比较多,故通过spark的DataSource API自己实现了一套比较方便操作HBase的A…
在集群上运行spark
1.spark-submit提交任务 ./bin/spark-submit \ --class <main-class> --master <master-url> \ --deploy-mode…
Spark Streaming 和kafka 集成指导(kafka 0.8.2.1 或以上版本)
本节介绍一下如何配置Spark Streaming 来接收kafka的数据。有两个方法: 1、老的方法 -使用Receivers 和kafka的高级API 2、新的方法( Spark 1.3 开始引入)-不使用Recei…
深入理解Spark 2.1 Core (四):运算结果处理和容错的原理与源码分析
在上一篇博文《深入理解Spark 2.1 Core (三):任务调度器的实现与源码分析 》TaskScheduler在发送任务给executor前的工作就全部完成了。这篇博文,我们来看看当executor计算完任务后,S…
利用Akka获取Spark任务的返回结果
通过spark-submit提交的任务都需要指定Main类作为程序的入口,Main类执行结束即Spark任务终结。如果需要通过外部程序实时向Spark任务提交数据并获取结果又该如何呢? 思路很简单,让Spark任务的Ma…
Spark 实现MySQL update操作
背景 目前 spark 对 MySQL 的操作只有 Append,Overwrite,ErrorIfExists,Ignore几种表级别的模式,有时我们需要对表进行行级别的操作,比如update。即我们需要构造这样的语句…
[第四章] spark主备切换机制剖析
-主备切换机制剖析 前面几章,我们讲了spark通常有三种提交模式 1、独立部署模式standalone,spark自身有一套完整的资源管理方式 2、架构于hadoop之上的spark集群 3、架构于mesos之上的sp…
修改spark UI访问端口
默认情况下:当默认端口被占用,会自动加1 1、cd SPARK_HOME/sbin 2、vi start-master.sh 3、定位到下面部分内容: if [ “$SPARK_MASTER_WEBUI_PO…
Spark读写压缩文件
一、 压缩文件读取 spark 自动根据文件后缀名判断压缩格式,不用特别指定 二、写文件时压缩 spark会加载Hadoop的默认的配置,如果hadoop中设置了压缩,spark没指定压缩则会用hadoop的配置方式压缩…
从零开始学习Spark(六)数据读取与保存
数据读取与保存 到目前为止,所展示的示例都是从本地集合或者普通文件中进行数据读取和保存的。但有时候,数据量可能大到无法放在一台机器中,这时就需要探索别的数据读取和保存的方法了。 Spark支持以下三种主要数据源:1. 文…
12.spark sql之读写数据
简介 Spark SQL支持多种结构化数据源,轻松从各种数据源中读取Row对象。这些数据源包括Parquet、JSON、Hive表及关系型数据库等。 当只使用一部分字段时,Spark SQL可以智能地只扫描这些字…