上节中简单的介绍了Spark的一些概念还有Spark生态圈的一些情况,这里主要是介绍Spark运行模式与Spark Standalone模式的部署; Spark运行模式 在Spark中存在着多种运行模式,可使用本地模…
标签:spark
Spark——SparkContext简单分析
本篇文章就要根据源码分析SparkContext所做的一些事情,用过Spark的开发者都知道SparkContext是编写Spark程序用到的第一个类,足以说明SparkContext的重要性;这里先摘抄SparkCon…
spark深入:配置文件与日志
一、第一部分 1、spark2.1与hadoop2.7.3集成,spark on yarn模式下,需要对hadoop的配置文件yarn-site.xml增加内容,如下: <property> <name…
Spark Streaming updateStateByKey案例实战和内幕源码解密
本节课程主要分二个部分: 一、Spark Streaming updateStateByKey案例实战二、Spark Streaming updateStateByKey源码解密 第一部分: updateStateByK…
Spark Streaming数据清理内幕彻底解密
本讲从二个方面阐述: 数据清理原因和现象 数据清理代码解析 Spark Core从技术研究的角度讲 对Spark Streaming研究的彻底,没有你搞不定的Spark应用程序。 Spark Streami…
SparkSession - Spark SQL 的 入口
SparkSession – Spark SQL 的 入口 翻译自:https://jaceklaskowski.gitbooks.io/mastering-apache-spark/content/spar…
Spark Streaming 总结
这篇文章记录我使用 Spark Streaming 进行 ETL 处理的总结,主要包含如何编程,以及遇到的问题。 环境 我在公司使用的环境如下: Spark: 2.2.0 Kakfa: 0.10.1 这两个版本算是比较新…
spark thrift server configuration
# MainApplicationProperties # --master yarn --deploy-mode client 下的配置, client 模式表示,driver 是在本地机器上跑的,thrift ser…
[bigdata] Spark RDD整理
1. RDD是什么RDD:Spark的核心概念是RDD (resilient distributed dataset),指的是一个只读的,可分区的弹性分布式数据集,这个数据集的全部或部分可以缓存在内存中,在多次计算间可重…
oracle中常用函数
1、oracle中 trunc 是截取的函数,用在日期类型上,就是截取到的日或时间。 select trunc(sysdate) from dual 默认是截取系统日期到日,得到 2012-12-…
谈谈RDD、DataFrame、Dataset的区别和各自的优势
在spark中,RDD、DataFrame、Dataset是最常用的数据类型,本博文给出笔者在使用的过程中体会到的区别和各自的优势 共性: 1、RDD、DataFrame、Dataset全都是spark平台…
java-spark的各种常用算子的写法
通常写spark的程序用scala比较方便,毕竟spark的源码就是用scala写的。然而,目前java开发者特别多,尤其进行数据对接、上线服务的时候,这时候,就需要掌握一些spark在jav…