标签：MapReduce

[SQL]Crunch简化MR开发(与 Pig 和 Hive 一样)

Apache Crunch——简化 MapReduce 开发 http://www.ibm.com/developerworks/cn/opensource/os-cn-apache-crunch/index.html …

需求输入文件：文本文件每行格式： <source> <destination> <time> 3个部分由空格隔开其中source和destination为两个字符串，内部没有空格…

最近发生一件事， Ruby-China Mongodb注入可导致盗用管理员(他人)身份发帖引起了我的兴趣。具体内容可以移步到链接去看。随便给出对应的pr地址：https://github.com/ruby-china/…

三架马车： ·Google File System（GFS）的开源实现：HDFS ·MapReduce 的开源实现：Hadoop MapReduce ·BigTable 的开源实现：HBase Google File S…

hadoop集群搭建环境 centos6.7 虚拟机三台 yh01(主节点) yh02 yh03 一下如无特殊说明都是在主节点上配置 1.下载 http://mirrors.hust.edu.cn/ap… …

用户在DataWorks上执行MapReduce作业的时候，文件大于10M的JAR和资源文件不能上传到Dataworks，导致无法使用调度去定期执行MapReduce作业。解决方案：第一步：大于10M的resourc…

partitioner在处理输入数据集时就像条件表达式(condition)一样工作。分区阶段发生在Map阶段之后，Reduce阶段之前。partitioner的个数等于reducer的个数(The number of …

问题描述：输入文件格式如下： name1 2 name3 4 name1 6 name1 1 name3 &nbs…

Docker搭建Hadoop集群首先搭建Docker环境,Docker版本大于1.3.2 安装主机监控程序和加速器(curl -sSL https://get.daocloud.io/daomonit/install.…

查看MapReduce历史执行情况报错查看已经运行完成的MapReduce作业记录，比如用了多少个Map、用了多少个Reduce、作业提交时间、作业启动时间、作业完成时间等信息。 image.png 默认情况下，历史服…

本文主要记录 cdh hadoop 集群集成 ldap 的过程，这里 ldap 安装的是 OpenLDAP 。LDAP 用来做账号管理，Kerberos作为认证。授权一般来说是由应用来决定的，通过在 LDAP 数据库中配…

上一篇《MapReduce多种join实现实例分析（一）》，大家可以点击回顾该篇文章。本文是MapReduce系列第二篇。一、在Map端进行连接使用场景：一张表十分小、一张表很大。用法:在提交作业的时候先将小表文件…