分类：Spark

Spark 2.x与1.x对比和分析

目前Spark最新版本已经到了2.4.1了。Spark 1.x中RDD是底层的API和内核，在Spark 2.x中主要是Dataframe/Dataset。本文对Spark 2.x与1.x进行对比和分析，首先明白Spar…

简介本文主要记录如何安装配置Hive on Spark，在执行以下步骤之前，请先确保已经安装Hadoop集群，Hive，MySQL，JDK，Scala，具体安装步骤不再赘述。背景 Hive默认使用MapReduce作…

Spark 实战, 第 2 部分:使用 Kafka 和 Spark Streaming 构建实时数据处理系统 https://www.ibm.com/developerworks/cn/opensource/os-cn-…

Spark Streaming 基于Spark之上的流处理流：source ==> compute ==> store 离线是特殊的流 letting you write streaming jobs th…

测试spark版本： Spark context Web UI available at http://192.168.1.1:32735 Spark context available as 'sc' (master …

Spark最为重要的特性之一就是可以在多个操作（Action）之间，将一个或多个RDD关联的数据集（Dataset）以分区（Partition）为单位进行持久化（Persist）或缓存（Cache），存储介质通常是内存（…

Application：spark应用程序，就是用户基于spark api开发的程序，一定是通过一个有main方法的类执行的，比如java开发spark，就是在eclipse中，建立的一个工程 Application J…

SparkContext所做的准备在SparkContext(这里基于Spark的版本是1.3.1)主要做的工作是: 1.创建SparkEnv，里面又一个很重要的对象ActorSystem 2.创建TaskSchedu…

微信公众号：飞总的IT世界面面观头条号：飞总的IT世界面面观 Spark，当前大数据领域最活跃的开源项目。好几个人想让我写写Spark了，说实话我觉得对Spark来说有点难写。Spark的论文我倒多半读过，但是Spar…

1、hadoop的mapereduce编程模型 map阶段：（1）读取文件系统中的文件（2）将键值对集合输入到mapper进行业务处理形成key-value的输出，（3）进行partition进行分区操作，默认式h…

使用scala 因为spark的源代码就是scala，想成为专家就必须会scala，尤其是RDD的代码大量的都是基于scala集合库的概念，并且immutable，lambda等scala相关的语言设计概念也是天生的体现…

Timestamp类型与日期类型之间的转化？ Timestamp timestamp = Timestamp.valueOf("2017-03-17 07:00:00"); Date date = new Date(ti…