http://blog.javachen.com/2014/06/24/tuning-in-mapreduce/ 本文主要记录Hadoop 2.x版本中MapReduce参数调优,不涉及Yarn的调优。 Hadoop的默…
分类:MapReduce
Hadoop 原理总结
Hadoop 原理总结 一、Hadoop技术原理 Hdfs主要模块:NameNode、DataNode Yarn主要模块:ResourceManager、NodeManager 常用命令: 1)用hadoo…
hadoop之mapreduce详解(优化篇)
一、概述 优化前我们需要知道hadoop适合干什么活,适合什么场景,在工作中,我们要知道业务是怎样的,能才结合平台资源达到最有优化。除了这些我们当然还要知道mapreduce的执行…
MapReduce(二)常用三大组件
mapreduce三大组件:Combiner\Sort\Partitioner 默认组件:排序,分区(不设置,系统有默认值) 一、mapreduce中的Combiner 1、什么是…
简单的java Hadoop MapReduce程序(计算平均成绩)从打包到提交及运行
目录 简单的java Hadoop MapReduce程序(计算平均成绩)从打包到提交及运行 程序源码 编译 命令 依赖错误 打包 提交运行 样例输入 上传到HDFS 运行 输出 简单的java Hadoop MapRe…
创建一个普通的Java项目,编写MapReduce程序
1.程序初始化 此常规Java项目,不是Maven项目,也不是Java Enterprise项目。 打开 File->New->Project菜单,选择Java即可,逐步点击Next,在目录D:\Java\h…
Hadoop开发
HDFS HDFS提供一套Java API来操作HDFS,包括文件的建立、修改、删除、权限管理等,下面对几个常用的API进行介绍,详细的API接口请参见API文档,可以在${HADOOP_HOME}/share/doc/…
Hadoop、Hive、Spark 之间关系
作者:Xiaoyu Ma ,大数据工程师 大数据本身是个很宽泛的概念,Hadoop生态圈(或者泛生态圈)基本上都是为了处理超过单机尺度的数据处理而诞生的。你可以把它比作一个厨房所以需要的各种工具。锅碗瓢盆,各有各的用处,…
Hive和Hadoop
我最近研究了hive的相关技术,有点心得,这里和大家分享下。 首先我们要知道hive到底是做什么的。下面这几段文字很好的描述了hive的特性: 1.hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据…
Hadoop 2.x常用端口及查看方法
一、常用端口 组件 节点 默认端口 配置 用途说明 HDFS DataNode 50010 dfs.datanode.address datanode服务端口,用于数据传输 HDFS DataNode 50075 dfs…
详解MapReduce工作流程
一、客户端向JobTracker提交作业 这个阶段要完成以下工作: 向JobTracker申请 一下新的JobID 检查是否指定了output dir,并且确认output dir不存在 根据InputPat…
hadoop:如何运行自带wordcount
hadoop:如何运行自带wordcount 转载自:http://www.aboutyun.com/thread-7713-1-1.html 1.找到examples例子我们需要找打这个例子的位置:首先需要…