目前Spark最新版本已经到了2.4.1了。Spark 1.x中RDD是底层的API和内核,在Spark 2.x中主要是Dataframe/Dataset。本文对Spark 2.x与1.x进行对比和分析,首先明白Spar…
分类:Spark
Hive_on_Spark安装配置详解
简介 本文主要记录如何安装配置Hive on Spark,在执行以下步骤之前,请先确保已经安装Hadoop集群,Hive,MySQL,JDK,Scala,具体安装步骤不再赘述。 背景 Hive默认使用MapReduce作…
[flow]Kafka+Spark Streaming+Redis实时计算整合
Spark 实战, 第 2 部分:使用 Kafka 和 Spark Streaming 构建实时数据处理系统 https://www.ibm.com/developerworks/cn/opensource/os-cn-…
25-SparkStreaming01
Spark Streaming 基于Spark之上的流处理 流:source ==> compute ==> store 离线是特殊的流 letting you write streaming jobs th…
spark2.1:rdd.combineByKeyWithClassTag的用法示例
测试spark版本: Spark context Web UI available at http://192.168.1.1:32735 Spark context available as 'sc' (master …
Spark RDD Persistence
Spark最为重要的特性之一就是可以在多个操作(Action)之间,将一个或多个RDD关联的数据集(Dataset)以分区(Partition)为单位进行持久化(Persist)或缓存(Cache),存储介质通常是内存(…
14、Spark的核心术语
Application:spark应用程序,就是用户基于spark api开发的程序,一定是通过一个有main方法的类执行的,比如java开发spark,就是在eclipse中,建立的一个工程 Application J…
Spark源码剖析(二):任务分配(含源码)
SparkContext所做的准备 在SparkContext(这里基于Spark的版本是1.3.1)主要做的工作是: 1.创建SparkEnv,里面又一个很重要的对象ActorSystem 2.创建TaskSchedu…
大数据那些事(29):从Spark到Spark
微信公众号:飞总的IT世界面面观 头条号:飞总的IT世界面面观 Spark,当前大数据领域最活跃的开源项目。好几个人想让我写写Spark了,说实话我觉得对Spark来说有点难写。Spark的论文我倒多半读过,但是Spar…
hadoop/spark的一些总结
1、hadoop的mapereduce编程模型 map阶段: (1)读取文件系统中的文件 (2)将键值对集合输入到mapper进行业务处理形成key-value的输出, (3)进行partition进行分区操作,默认式h…
高性能Spark: High Performance Spark 点滴总结完整篇
使用scala 因为spark的源代码就是scala,想成为专家就必须会scala,尤其是RDD的代码大量的都是基于scala集合库的概念,并且immutable,lambda等scala相关的语言设计概念也是天生的体现…
Java:日期类Date与Calendar
Timestamp类型与日期类型之间的转化? Timestamp timestamp = Timestamp.valueOf("2017-03-17 07:00:00"); Date date = new Date(ti…