分类：MapReduce

Hadoop MapReduce执行过程详解（带hadoop例子）

分析MapReduce执行过程 MapReduce运行的时候，会通过Mapper运行的任务读取HDFS中的数据文件，然后调用自己的方法，处理数据，最后输出。Reducer任…

Archer是Netflix的媒体处理引擎，底层是执行MapReduce的各种Docker，在上层跑各种算法。Archer可以检测出视频中的图像错误，字幕对关键内容的遮挡等问题。本文来自Netflix的科技博客，由Liv…

　谈mapreduce运行机制，可以从很多不同的角度来描述，比如说从mapreduce运行流程来讲解，也可以从计算模型的逻辑流程来进行讲解，也许有些深入理解了mapreduce运行机制还会从更好的角度来描述，但是将map…

一、问题背景　　实际业务的需要，比如以移动为例，河南的用户去了北京上网，那么他的上网信息默认保存在了北京的基站，那么我们想要查询北京地区的上网日志信息默认也包含了其他地区用户的在本区的上网信息，否则只能扫描日志找到北京…

====================================== = Iteration: 1 = Input path: out/shortestpath/input.txt =…

一般来说，基于Hadoop的MapReduce框架来处理数据，主要是面向海量大数据，对于这类数据，Hadoop能够使其真正发挥其能力。对于海量小文件，不是说不能使用Hadoop来处理，只不过直接进行处理效率不会高，而且海…

1、分发HDFS压缩文件（-cacheArchive）需求：wordcount（只统计指定的单词【the,and,had…】），但是该文件存储在HDFS上的压缩文件,压缩文件内可能有多个文件，通过-cach…

Shuffle过程是MapReduce的核心，也被称为奇迹发生的地方。要想理解MapReduce， Shuffle是必须要了解的。Shuffle的正常意思是洗牌或弄乱，可能大家更熟悉的是Java API里C…

本节书摘来异步社区《Hadoop MapReduce实战手册》一书中的第2章，第2.9节，作者：【美】Srinath Perera , Thilina Gunarathne 译者：杨卓荦责编：杨海玲，更多章节内容…

本节书摘来异步社区《Hadoop MapReduce性能优化》一书中的第1章，第1.4节，作者：【法】Khaled Tannir 译者：范欢动责编：杨海玲，更多章节内容可以访问云栖社区“异步社区”公众号查看。 1…

1.序列化序列化是指将结构化对象转为字节流以便于通过网络进行传输或写入持久存储的过程。反序列化指的是将字节流转为结构化对象的过程。在 Hadoop MapReduce 中，序列化的主要作用有两个：永久存储和进…

1. 多路径输入 FileInputFormat是所有使用文件作为其数据源的 InputFormat 实现的基类，它的主要作用是指出作业的输入文件位置。因为作业的输入被设定为一组路径，这对指定作业输入提供了很强的灵活性…