《Hadoop MapReduce性能优化》一2.2　Hadoop MapReduce性能指标

2019年4月25日 102次阅读来源: MapReduce

本节书摘来异步社区《Hadoop MapReduce性能优化》一书中的第2章，第2.2节，作者：【法】Khaled Tannir 译者：范欢动责编：杨海玲，更多章节内容可以访问云栖社区“异步社区”公众号查看。

2.2　Hadoop MapReduce性能指标

Hadoop MapReduce性能优化
由于规模以及分布性的原因，诊断Hadoop程序的性能问题和监测Hadoop系统有着特有的难度。尽管Hadoop系统对外公开了原始指标（metric）和日志（log），但这些都难于解释，并不能被很多程序员完全理解。

当前，Hadoop通过日志和指标API报告整体系统的粗略性能指标。但是，缺少了每个作业或者每个任务层面的重要指标，比如磁盘与网络I/O利用情况。在Hadoop系统上运行多个作业时，还缺乏反映每个任务的集群资源利用情况的性能指标。对集群管理员来说，这不仅会给测量集群利用情况带来困难，也不利于正确配置Hadoop系统。

而且，Hadoop产生的日志非常庞大，手工处理极其困难，以至于难以回答诸如“为什么特定数量的mapper/reducer没有达到最优的吞吐量？”这种简单的问题。图2-1所示的截屏反映了某一段Hadoop作业的历史细节。

《《Hadoop MapReduce性能优化》一2.2　Hadoop MapReduce性能指标》

    原文作者：MapReduce
    原文地址: https://yq.aliyun.com/articles/97041
    本文转自网络文章，转载此文章仅为分享知识，如有侵权，请联系博主进行删除。

2.2 Hadoop MapReduce性能指标

2.2　Hadoop MapReduce性能指标