分类：MapReduce

MapReduce性能优化

shuffle过程参数调优 Map端的调优属性 io.sort.mb int 100 排序Map输出是所使用内存缓冲区的大小，以MB为单位 io.sort.record.percent float 0.05 用作存储Ma…

原文：http://blog.javachen.com/2013/04/06/install-cloudera-cdh-by-yum.html 本文主要是记录使用yum安装CDH Hadoop集群的过程，包括HDFS、Y…

hadoop概述参考资料： hdfs官网： https://hadoop.apache.org/doc… Hbase： https://www.ibm.com/developer… 关系型数据库…

业务场景 Hive离线计算好的数据，需要同步到HBase供在线业务查询. 思路是用 Hbase 自带的 ImportTsv 工具。 Hive 跑批建表语句，要用文本格式，即 Tsv 格式，分割符可以自己定义 C…

一、MRUnit简介官网地址：https://mrunit.apache.org/ Apache MRUnit ™ is a Java l…

前言：对于二次排序相信大家也是似懂非懂，我也是一样，对其中的很多方法都不理解诶，所有只有暂时放在一边，当你接触到其他的函数，你知道的越多时你对二次排序的理解也就更深入了，同时建议大家对wordcount的流程好好分析一下…

Python内建了map()和reduce()函数。如果你读过Google的那篇大名鼎鼎的论文“MapReduce: Simplified Data Processing on Large Clusters”，你就能大…

最近在做报表统计，跑hadoop任务。之前也跑过map/reduce但是数据量不大，遇到某些map/reduce执行时间特别长的问题。执行时间长有几种可能性： 1. 单个map/reduce任务处理的任务大。 &nb…

Map Side Join package MapJoin; import java.io.BufferedReader; import java.io.FileReader; import java.io.IOExce…

本节书摘来异步社区《MapReduce 2.0源码分析与编程实战》一书中的第1章，第1.1节，作者：王晓华责编：陈冀康，更多章节内容可以访问云栖社区“异步社区”公众号查看。 1.1　数据管理系统：速成 HBase实…

本文章采用创作共用版权协议, 要求署名、非商业用途和保持一致. 转载本文章必须也遵循署名-非商业用途-保持一致的创作共用协议. 1. 再述MapReduce计算模型 JobTracker用于管理和调度工作(一个集群只有一…

声明：作者原创，转载注明出处。作者：帅气陈吃苹果一、服务器环境主机名 IP 用户名密码安装目录 master188 192.168.29.188 hadoop hadoop /home/hadoop/ mast…