上次我们已经搭建了Hadoop的伪分布式环境,并且运行了一下Hadoop自带的例子–WordCount程序,展现良好。但是大多数时候还是得自己写程序,编译,打包,然后运行的,所以做一次自编译打包运行的实验。 编辑程序 在…
分类:MapReduce
【分布式计算】MapReduce的替代者-Parameter Server
首先还是要声明一下,这个文章是我在入职阿里云1个月以来,对于分布式计算的一点肤浅的认识,可能有些地方不够妥善,还请看官可以指出不足的地方,共同进步。 一.背景 随着互联网的发展,数据量的增大,很多对于数据的处理工作(例如…
csv导入HBase
csv导入HBase 0 前置 example.csv文件 echo '999999941017403,1471848231000,120.6817399807754,27.95172926917687,0,0' >…
hadoop MapReduce实例解析
1、MapReduce理论简介 1.1 MapReduce编程模型 MapReduce采用”分而治之”的思想,把对大规模数据集的操作,分发给一个主节点管理下的各个分节点共同完成,然后通过整合各个节点的中间结果,得到最终结…
MapReduce原理与设计思想
简单解释 MapReduce 算法 一个有趣的例子 你想数出一摞牌中有多少张黑桃。直观方式是一张一张检查并且数出有多少张是黑桃 MapReduce方法则是 给在座的所有玩家中分配这摞牌 让每个玩家数自己手中的牌有几张是黑…
MapReduce V1:Job提交流程之JobClient端分析
我们基于Hadoop 1.2.1源码分析MapReduce V1的处理流程。 MapReduce V1实现中,主要存在3个主要的分布式进程(角色):JobClient、JobTracker和TaskTracker,我们主…
三句话告诉你 mapreduce 中MAP进程的数量怎么控制?
1、果断先上结论 1.如果想增加map个数,则设置mapred.map.tasks 为一个较大的值。 2.如果想减小map个数,则设置mapred.min.split.size 为一个较大的值。 3.如果输入中有很多小文…
E-MapReduce Kafka Kerberos集群授权
Kafka授权 如果没有开启Kafka认证(如Kerberos认证或者简单的用户名密码),即使开启了Kafka授权,用户也可以伪造身份访问服务。所以建议创建高安全模式(即支持Kerberos)的Kafka集群,详见Ker…
E-MapReduce中Spark 2.x读写MaxCompute数据
最新的aliyun-emapreduce-sdk将MaxCompute数据以DataSource的方式接入Spark 2.x,用户可以使用类似Spark 2.x中读写json/parquet/csv的方式来访问MaxCo…
MapReduce任务参数调优
本文主要记录Hadoop 2.x版本中MapReduce参数调优,不涉及Yarn的调优。 Hadoop的默认配置文件(以cdh5.0.1为例): core-default.xml hdfs-default.xml map…
分布式(hadoop)内核研发面试指南
最近一直在看简历,面试同学,发现符合要求的很少。本文是同学们进入阿里云等公司的hadoop内核研发岗位的一个指引,需要具备哪些要求,如果不具备则可以往这方面努力。 如果 以下的问题不能很好回答,还是多多学习啊。 如果很好…
Hadoop 少量map/reduce任务执行慢问题
最近在做报表统计,跑hadoop任务。 之前也跑过map/reduce但是数据量不大,遇到某些map/reduce执行时间特别长的问题。 执行时间长有几种可能性: 1. 单个map/reduce任务处理的任务大。 &nb…