分类：MapReduce

mapreduce 输入输出类型

默认的mapper是IdentityMapper，默认的reducer是IdentityReducer，它们将输入的键和值原封不动地写到输出中。默认的partitioner是HashPartitinoer，它根据每条记…

环境介绍：主服务器ip：192.168.80.128(master) NameNode SecondaryNameNode ResourceManager 从服务器ip：192.168.80.1…

在运行mapreduce的时候，出现Error: GC overhead limit exceeded，查看log日志，发现异常信息为 2015-12-11 11:48:44,716 FATAL [main] org.a…

多种方式实现： 1. 实现MulitpleOutputFormat类（旧API），如MultipleTextOutputFormat 和 MultpleSequenceFileOutputFormat 是它的两个具体实现…

配置hadoop，主要是配置core-site.xml,hdfs-site.xml,mapred-site.xml三个配置文件，默认下来，这些配置文件都是空的，所以很难知道这些配置文件有哪些配置可以生效，上…

Partitioner分区类的作用是什么？在进行MapReduce计算时，有时候需要把最终的输出数据分到不同的文件中，比如按照省份划分的话，需要把同一省份的数据放到一个文件中；按照性别划分的话，需要把同一性别的数据放到…

对于任意矩阵M和N，若矩阵M的列数等于矩阵N的行数，则记M和N的乘积为P=M*N，其中mik 记做矩阵M的第i行和第k列，nkj记做矩阵N的第k行和第j列，则矩阵P中，第i行第j列的元素可表示为公式（1-1）： pij=…

基于YARN的配置信息, 参见: http://www.ibm.com/developerworks/cn/opensource/os-cn-hadoop-yarn/ hadoop入门 – 基础概念…

简介大数据是收集、整理、处理大容量数据集，并从中获得见解所需的非传统战略和技术的总称。虽然处理数据所需的计算能力或存储容量早已超过一台计算机的上限，但这种计算类型的普遍性、规模，以及价值在最近几年才经历了大规模扩展。 …

Hadoop（MapReduce&HDFS） 1.学习目的（前言）　　在从业了六年IT生涯里，做个实施顾问、业务顾问、BA需求分析师、项目经理，现在重新定位自己，在新公司做起了开发顾问，虽然经历过很…

import java.io.IOException; import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.fs.Path; imp…