Apache Crunch——简化 MapReduce 开发 http://www.ibm.com/developerworks/cn/opensource/os-cn-apache-crunch/index.html …
标签:MapReduce
MapReduce编程实例
需求 输入文件:文本文件 每行格式: <source> <destination> <time> 3个部分由空格隔开 其中source和destination为两个字符串,内部没有空格…
MongoDB, no SQL injection?
最近发生一件事, Ruby-China Mongodb注入可导致盗用管理员(他人)身份发帖引起了我的兴趣。 具体内容可以移步到链接去看。随便给出对应的pr地址:https://github.com/ruby-china/…
全面了解大数据“三驾马车”的开源实现
三架马车: ·Google File System(GFS)的开源实现:HDFS ·MapReduce 的开源实现:Hadoop MapReduce ·BigTable 的开源实现:HBase Google File S…
hadoop集群搭建-hadoop3.1.1
hadoop集群搭建 环境 centos6.7 虚拟机三台 yh01(主节点) yh02 yh03 一下如无特殊说明都是在主节点上配置 1.下载 http://mirrors.hust.edu.cn/ap… …
[MaxCompute MapReduce实践]通过简单瘦身,解决Dataworks 10M文件限制问题
用户在DataWorks上执行MapReduce作业的时候,文件大于10M的JAR和资源文件不能上传到Dataworks,导致无法使用调度去定期执行MapReduce作业。 解决方案: 第一步:大于10M的resourc…
[Hadoop]MapReduce中的Partitioner
partitioner在处理输入数据集时就像条件表达式(condition)一样工作。分区阶段发生在Map阶段之后,Reduce阶段之前。partitioner的个数等于reducer的个数(The number of …
MapReduce的自制Writable分组输出及组内排序
问题描述: 输入文件格式如下: name1 2 name3 4 name1 6 name1 1 name3 &nbs…
Docker搭建Hadoop集群
Docker搭建Hadoop集群 首先搭建Docker环境,Docker版本大于1.3.2 安装主机监控程序和加速器(curl -sSL https://get.daocloud.io/daomonit/install.…
hadoop的mapReduce历史服务配置及查看
查看MapReduce历史执行情况报错 查看已经运行完成的MapReduce作业记录,比如用了多少个Map、用了多少个Reduce、作业提交时间、作业启动时间、作业完成时间等信息。 image.png 默认情况下,历史服…
Hadoop配置LDAP集成Kerberos
本文主要记录 cdh hadoop 集群集成 ldap 的过程,这里 ldap 安装的是 OpenLDAP 。LDAP 用来做账号管理,Kerberos作为认证。授权一般来说是由应用来决定的,通过在 LDAP 数据库中配…
MapReduce多种join实现实例分析(二)
上一篇《MapReduce多种join实现实例分析(一)》,大家可以点击回顾该篇文章。本文是MapReduce系列第二篇。 一、在Map端进行连接 使用场景:一张表十分小、一张表很大。 用法:在提交作业的时候先将小表文件…