分类：MapReduce

Hadoop MapReduce处理海量小文件：自定义InputFormat和RecordReader

一般来说，基于Hadoop的MapReduce框架来处理数据，主要是面向海量大数据，对于这类数据，Hadoop能够使其真正发挥其能力。对于海量小文件，不是说不能使用Hadoop来处理，只不过直接进行处理效率不会高，而且海…

title: mapreduce任务运行时shuffle Error tags: MapReduce categories: 大数据本文引用参考：MapReduce任务Shuffle Error错误相关参考连接： y…

全程不推荐使用 root 操作,我采用的用户名是 junbaor 环境 OpenJDK-1.8 Hadoop 2.7.3 Ubuntu Server 17.04 (三台) 环境准备安装 VMware Workstati…

例子来源于51CTO.com map.py #!/usr/bin/env python import re import sys for line in sys.stdin: val = line.strip() #从行…

1 概述 Hadoop内置的输入文件格式类有： 1）FileInputFormat<K,V>这个是基本的父类，自定义就直接使用它作为父类。 2）TextInputFormat<LongWritable,…

目前而言，不收费的Hadoop版本主要有三个(均是国外厂商)，分别是： Apache(最原始的版本，所有发行版均基于这个版本进行改进)、 Cloudera版本(Cloudera’s Distribution Includ…

《Hadoop权威指南（第三版）》全书示例代码可以在这里找到，参考readme中的步骤进行编译。 MaxTemperatureMapper代码如下： package com.nasuf.maxtemperature; i…

docker安装安装 yum install -y epel-releas yum install docker-io 加入开机启动 chkconfig docker on 启动docker service docke…

Date: 2016-03-09 Summary: 在实际应用中，用MongoDB做了数据库查询之后返回的数据量很大，想要做一些比较复杂的统计和聚合操作做花费的时间超过了数据库操作耗时，尝试用MongoDB中的MapRe…

由于最近在做一个小比赛，，需要搭建数据处理平台，，由于数据量比较大，因此选择了Hadoop，本人并不是很熟悉这个平台，，因此搭建过程中遇到了许多问题，，所以想记录一下，以后可能会用到。搭建过程并不困难，由于手…

很多文档中描述，Mapper的数量在默认情况下不可直接控制干预，因为Mapper的数量由输入的大小和个数决定。在默认情况下，最终input占据了多少block，就应该启动多少个Mapper。如果输入的文件数量巨大，但是每…

title: mapreduce多目录输出笔记 date: 2016/11/26 22:23:21 tags: MapReduce categories: 大数据使用MultipleOutputs实现多目录/文件输出 …