分类：MapReduce

《Hadoop MapReduce性能优化》一2.2　Hadoop MapReduce性能指标

本节书摘来异步社区《Hadoop MapReduce性能优化》一书中的第2章，第2.2节，作者：【法】Khaled Tannir 译者：范欢动责编：杨海玲，更多章节内容可以访问云栖社区“异步社区”公众号查看。 2…

旧版 API 的 Partitioner 解析 Partitioner 的作用是对 Mapper 产生的中间结果进行分片，以便将同一分组的数据交给同一个 Reducer 处理，它直接影响 Reduce 阶段的负…

本文介绍一些常见的集群跑hive作业参数优化，可以根据业务需要来使用。提高hdfs性能修改hdfs-site，注意重启hdfs服务 dfs.client.read.shortcircuit=true //直读 dfs…

E-MapReduce的emr-2.0.0以下的HBase集群中并不包含Phoenix，也没有启动yarn，下面介绍一种通过…

Hadoop一出生就是存储与计算在一起的，前几年面试题中都问，Hadoop怎么保证高性能呢？其中一个原因是存储不动，计算(code)动，不同于传统的集中式的存储模式。那我们为什么还要谈存储计算分离呢？众观历史，分久必合、…

一、引言目前网站的一些业务数据存在数据库中，这些数据往往需要做进一步的分析，如：需要根据一些日志数据关联分析，或者需要进行一些如机器学习的分析。在阿里云上，目前E-Mapreduce能满足这种分析的需求。在E-Map…

26 集群使用初步 HDFS的设计思路 l 设计思想分而治之：将大文件、大批量文件，分布式存放在大量服务器上，以便于采取分而治之的方式对海量数据进行运算分析； l&nbs…

本节书摘来异步社区《Hadoop海量数据处理：技术详解与项目实战（第2版）》一书中的第2章，第2.1节，作者：范东来责编：杨海玲，更多章节内容可以访问云栖社区“异步社区”公众号查看。 2.1　Hadoop的发行版本…

找出相同单词的所有单词。现在，是拿取部分数据集(如下)来完成本项目。项目需求　　一本英文书籍包含成千上万个单词或者短语，现在我们需要在大量的单词中，找出相同字母组成…

引言：和 Hadoop 一样，Spark 提供了一个 Map/Reduce API（分布式计算）和分布式存储。二者主要的不同点是，Spark 在集群的内存中保存数据，而 Hadoop 在集群的磁盘中存储数据。本文选自《…

背景大部分我们的数据处理作业在完成计算以后，都希望能够把结果可视化的展示出来，形成类似每日报表这样的东西，供大家直观的查看。或者能有类似阿里双11那种实时的数据大屏效果就更好了如果自己去做一个类似的数据可视化的系统会非…

　　执行 2016-12-12 15:07:51,762 INFO [org.apache.hadoop.metrics.jvm.JvmMetrics] – Initializing JVM M…