标签：spark

数据挖掘之Spark学习

阅读路线: Hadoop与Spark比较 Spark的安装 Spark知识点一、Hadoop与Spark比较 1.简单的比较刚开始学习Spark的时候，自己总是会想当然的理解两者之间的关系。Hadoop和Spark的…

hadoop@master:~$ scp /home/hadoop/.ssh/authorized_keys node3:/home/hadoop/.ssh/ @@@@@@@@@@@@@@@@@@@@@@@@@@@@@@…

spark连接mysql（打jar包方式） package wujiadong_sparkSQL import java.util.Properties import org.apache.spark.sql.SQLCo…

目前Spark最新版本已经到了2.4.1了。Spark 1.x中RDD是底层的API和内核，在Spark 2.x中主要是Dataframe/Dataset。本文对Spark 2.x与1.x进行对比和分析，首先明白Spar…

简介本文主要记录如何安装配置Hive on Spark，在执行以下步骤之前，请先确保已经安装Hadoop集群，Hive，MySQL，JDK，Scala，具体安装步骤不再赘述。背景 Hive默认使用MapReduce作…

Spark 实战, 第 2 部分:使用 Kafka 和 Spark Streaming 构建实时数据处理系统 https://www.ibm.com/developerworks/cn/opensource/os-cn-…

Spark Streaming 基于Spark之上的流处理流：source ==> compute ==> store 离线是特殊的流 letting you write streaming jobs th…

测试spark版本： Spark context Web UI available at http://192.168.1.1:32735 Spark context available as 'sc' (master …

Spark最为重要的特性之一就是可以在多个操作（Action）之间，将一个或多个RDD关联的数据集（Dataset）以分区（Partition）为单位进行持久化（Persist）或缓存（Cache），存储介质通常是内存（…

Application：spark应用程序，就是用户基于spark api开发的程序，一定是通过一个有main方法的类执行的，比如java开发spark，就是在eclipse中，建立的一个工程 Application J…

SparkContext所做的准备在SparkContext(这里基于Spark的版本是1.3.1)主要做的工作是: 1.创建SparkEnv，里面又一个很重要的对象ActorSystem 2.创建TaskSchedu…

微信公众号：飞总的IT世界面面观头条号：飞总的IT世界面面观 Spark，当前大数据领域最活跃的开源项目。好几个人想让我写写Spark了，说实话我觉得对Spark来说有点难写。Spark的论文我倒多半读过，但是Spar…