新鲜文章,昨天刚经过线上验证过的,使用它导出了3亿的用户数据出来,花了半个小时,性能还是稳稳的,好了不吹牛皮了,直接上代码吧。 MR 考查了Hbase的各种MR,没有发现哪一个是能实现的,如果有请通知我,我给他发红包。 …
标签:mr
##数据仓库中的SQL性能优化(Hive篇)
数据仓库中的SQL性能优化(Hive篇) – 简书 http://www.jianshu.com/p/808a50f3b755 更新:本文在2017年之后有微量更新(主要是数据倾斜一节),目前暂时只在我的独立…
spark 基础一:基本工作原理与RDD
Spark基本工作原理与RDD 主要特点 分布式; 主要是基于内存(少数情况基于磁盘); 迭代式计算:可以通过与MR对比来说明spark的迭代式计算,MR分为两个阶段,map和reduce,两个阶段完了我们,job就结束…
如何系统的学习大数据框架 hadoop 和spark?
hadoop和Spark是两种不同的大数据生态系统,Hadoop框架比较侧重离线大批量计算,而spark框架则侧重于内存和实时计算。 在这些基础上,衍生出了一些常用的附属组件,比如Hadoop生态下的HBASE、hive…
hadoop(14)--Hive入门
前面13篇主要是HDFS,MR以及Yarn,这三个也是hadoop中最重要的,接下来分享几个工具,今天这个hive其实就是一个工具,什么工具呢?是将sql语句转换成MR程序的工具,意思就是以后统计,分析的时候可以不用写M…
数据仓库中的SQL性能优化(Hive篇)
一个Hive查询生成多个map reduce job,一个map reduce job又有map,reduce,spill,shuffle,sort等多个阶段,所以针对hive查询的优化可以大致分为针对MR中单个步骤的优…
hadoop(10)--MR运行模式以及Yarn的调度流程
首先开门见山,说明一下MR的l两种种运行模式 1,在本地运行模式 ①在windows中,intellij idea或者eclipse中直接运行,文件存储可以是本地也可以是HDFS ②在linux中,运行eclipse,文…
Hadoop系列之MR入门代码
提到hadoop上运行的MR程序, 基本都知道由Map和Reduce两部分代码组成。这两部分代码是如何构成MR程序的基本框架, 以及两者是如何协助实现基本功能的, 本文在此做个基本的探索。 一、MR程序基本思路 以经典的…
Hadoop学习笔记(MR执行流程)
执行MR的命令: hadoop jar <jar在linux的路径> <main方法所在的类的全类名> <参数> 例子: hadoop jar /root/wc1.jar cn.itc…
[spring]-hadoop(Spring Data的子模块)和spring-batch对MR整合
干货(3)-spring-batch+spring-hadoop+olh整合 – Hadoop分布式数据分析平台-炼数成金-Dataguru专业数据分析社区 http://f.dataguru.cn/thre…
Hive分区和桶的概念
Hive 已是目前业界最为通用、廉价的构建大数据时代数据仓库的解决方案了,虽然也有 Impala 等后起之秀,但目前从功能、稳定性等方面来说,Hive 的地位尚不可撼动。 其实这篇博文主要是想聊聊 SMB join 的,…
Spark概述
Spark:基于内存的分布式的计算框架,是一个针对海量数据处理的非常快的通用的计算引擎(计算框架)。 特点: 先进架构 采用Scala语言编写,底层采用actormodel的akka作为通讯框架…