阅读路线: Hadoop与Spark比较 Spark的安装 Spark知识点 一、Hadoop与Spark比较 1.简单的比较 刚开始学习Spark的时候,自己总是会想当然的理解两者之间的关系。Hadoop和Spark的…
标签:spark
Linux:SSH错误"WARNING: REMOTE HOST IDENTIFICATION HAS CHANGED! "
hadoop@master:~$ scp /home/hadoop/.ssh/authorized_keys node3:/home/hadoop/.ssh/ @@@@@@@@@@@@@@@@@@@@@@@@@@@@@@…
spark SQL学习(spark连接 mysql)
spark连接mysql(打jar包方式) package wujiadong_sparkSQL import java.util.Properties import org.apache.spark.sql.SQLCo…
Spark 2.x与1.x对比和分析
目前Spark最新版本已经到了2.4.1了。Spark 1.x中RDD是底层的API和内核,在Spark 2.x中主要是Dataframe/Dataset。本文对Spark 2.x与1.x进行对比和分析,首先明白Spar…
Hive_on_Spark安装配置详解
简介 本文主要记录如何安装配置Hive on Spark,在执行以下步骤之前,请先确保已经安装Hadoop集群,Hive,MySQL,JDK,Scala,具体安装步骤不再赘述。 背景 Hive默认使用MapReduce作…
[flow]Kafka+Spark Streaming+Redis实时计算整合
Spark 实战, 第 2 部分:使用 Kafka 和 Spark Streaming 构建实时数据处理系统 https://www.ibm.com/developerworks/cn/opensource/os-cn-…
25-SparkStreaming01
Spark Streaming 基于Spark之上的流处理 流:source ==> compute ==> store 离线是特殊的流 letting you write streaming jobs th…
spark2.1:rdd.combineByKeyWithClassTag的用法示例
测试spark版本: Spark context Web UI available at http://192.168.1.1:32735 Spark context available as 'sc' (master …
Spark RDD Persistence
Spark最为重要的特性之一就是可以在多个操作(Action)之间,将一个或多个RDD关联的数据集(Dataset)以分区(Partition)为单位进行持久化(Persist)或缓存(Cache),存储介质通常是内存(…
14、Spark的核心术语
Application:spark应用程序,就是用户基于spark api开发的程序,一定是通过一个有main方法的类执行的,比如java开发spark,就是在eclipse中,建立的一个工程 Application J…
Spark源码剖析(二):任务分配(含源码)
SparkContext所做的准备 在SparkContext(这里基于Spark的版本是1.3.1)主要做的工作是: 1.创建SparkEnv,里面又一个很重要的对象ActorSystem 2.创建TaskSchedu…
大数据那些事(29):从Spark到Spark
微信公众号:飞总的IT世界面面观 头条号:飞总的IT世界面面观 Spark,当前大数据领域最活跃的开源项目。好几个人想让我写写Spark了,说实话我觉得对Spark来说有点难写。Spark的论文我倒多半读过,但是Spar…