分类：MapReduce

基于docker1.7.03.1单机上部署hadoop2.7.3分布式集群

基于docker1.7.03.1单机上部署hadoop2.7.3分布式集群 [TOC] 声明文章均为本人技术笔记，转载请注明出处：[1] https://segmentfault.com/u/yzwall[2] blo…

hadoop集群搭建这里的集群只是一个单点登录的集群，没有做到正真的HA高可用，只是一个namenode节点多个datanode节点基本思路: 先在一个节点上配置好hadoop集群将配置好的hadoop复制给其他的…

Hadoop发展历史 Hadoop这个名字不是一个缩写，它是一个虚构的名字。该项目的创建者，Doug Cutting如此解释Hadoop的得名：”这个名字是我孩子给一头吃饱了的棕***大象命名的。我的命名标准就是简短，容…

前言最近在项目中使用mongodb进行简单的数据分析，在使用mongodb驱动mgo时遇到一些问题，比如在mongodb中执行命令成功，到了mgo中就执行失败。在这里谈一谈实践过程中遇到的问题，基础的用法不再说明了，可…

HBase集群间数据迁移 0. 前置 HBase集群 HDFS Cluster-A hdfs:/A Cluster-B hdfs:/B Cluster-A集群数据迁移到Cluster-B 1. Export/Import…

简述 hadoop 集群一共有4种部署模式，详见《hadoop 生态圈介绍》。 HA联邦模式解决了单纯HA模式的性能瓶颈（主要指Namenode、ResourceManager），将整个HA集群划分为两个以上的集群，不同…

如何在eclipse或myeclipse调试mapreduce程序，这个可能是初学mr程序者碰到的一个难题在hadoop1.2.1后，在下载的源代码中找不到hadoop-ecli…

MongoDB也简单的实现了MapReduce的功能来提供分布式的数据查询服务,MapReduce的分布是功能主要用在Shard上 db.runCommand( { mapreduce : <…

一、原理分析　　Mapreduce的处理过程，由于Mapreduce会在Map~reduce中，将重复的Key合并在一起，所以Mapreduce很容易就去除重复的行。Map无须做任何处理，设置Map中写入context…

转自：使用Python实现Hadoop MapReduce程序英文原文：Writing an Hadoop MapReduce Program in Python 根据上面两篇文章，下面是我在自己的ubuntu上的运行…

Hadoop自带了一个历史服务器，可以通过历史服务器查看已经运行完的Mapreduce作业记录，比如用了多少个Map、用了多少个Reduce、作业提交时间、作业启动时间、作业完成时间等信息。默认情况下，Hadoop历史服…

来自问题：http://segmentfault.com/q/1010000000148955#a-1020000000149523 印度 Java 程序员 Shekhar Gulati 在自己的博客发表了 “How I…