一般来说,基于Hadoop的MapReduce框架来处理数据,主要是面向海量大数据,对于这类数据,Hadoop能够使其真正发挥其能力。对于海量小文件,不是说不能使用Hadoop来处理,只不过直接进行处理效率不会高,而且海…
分类:MapReduce
MapReduce任务Shuffle Error错误
title: mapreduce任务运行时shuffle Error tags: MapReduce categories: 大数据 本文引用参考:MapReduce任务Shuffle Error错误 相关参考连接: y…
Hadoop 2.7.3 集群搭建及配置
全程不推荐使用 root 操作,我采用的用户名是 junbaor 环境 OpenJDK-1.8 Hadoop 2.7.3 Ubuntu Server 17.04 (三台) 环境准备 安装 VMware Workstati…
hadoop例子注释
例子来源于51CTO.com map.py #!/usr/bin/env python import re import sys for line in sys.stdin: val = line.strip() #从行…
MapReduce中的InputFormat(2)自定义InputFormat
1 概述 Hadoop内置的输入文件格式类有: 1)FileInputFormat<K,V>这个是基本的父类,自定义就直接使用它作为父类。 2)TextInputFormat<LongWritable,…
Apache Hadoop Cloudera CDH Hortonworks HDP 区别
目前而言,不收费的Hadoop版本主要有三个(均是国外厂商),分别是: Apache(最原始的版本,所有发行版均基于这个版本进行改进)、 Cloudera版本(Cloudera’s Distribution Includ…
Hadoop系列(二)MaxTemperature
《Hadoop权威指南(第三版)》全书示例代码可以在这里找到,参考readme中的步骤进行编译。 MaxTemperatureMapper代码如下: package com.nasuf.maxtemperature; i…
Hadoop on Docker
docker安装 安装 yum install -y epel-releas yum install docker-io 加入开机启动 chkconfig docker on 启动docker service docke…
使用MongoDB的MapReduce进行查询和数据组织
Date: 2016-03-09 Summary: 在实际应用中,用MongoDB做了数据库查询之后返回的数据量很大,想要做一些比较复杂的统计和聚合操作做花费的时间超过了数据库操作耗时,尝试用MongoDB中的MapRe…
Hadoop大数据处理平台的搭建
由于最近在做一个小比赛,,需要搭建数据处理平台,,由于数据量比较大,因此选择了Hadoop,本人并不是很熟悉这个平台,,因此搭建过程中遇到了许多问题,,所以想记录一下,以后可能会用到。搭建过程并不困难,由于手…
mapreduce中控制mapper的数量
很多文档中描述,Mapper的数量在默认情况下不可直接控制干预,因为Mapper的数量由输入的大小和个数决定。在默认情况下,最终input占据了多少block,就应该启动多少个Mapper。如果输入的文件数量巨大,但是每…
mapreduce多目录输出笔记
title: mapreduce多目录输出笔记 date: 2016/11/26 22:23:21 tags: MapReduce categories: 大数据 使用MultipleOutputs实现多目录/文件输出 …