分类：MapReduce

使用eclipse开发MapReduce

1.增加插件将插件hadoop-eclipse-plugin-1.0.4.jar放入/usr/lib/eclipse/plugins目录下（完成后重新启动eclipse）[插件存放路径视eclipse存放位置而定] …

本文用到的阿里云数加－大数据计算服务MaxCompute产品地址：https://www.aliyun.com/product/odps 1. 作业出现ClassNotFoundException和NoClassDef…

虽然Google的MapReduce论文很老了（十多年），但只要还没看，就值得一看。概要 MapReduce是一种重视容错性的分布式并行计算模式，它把分布式并行计算分为map和reduce两个阶段： map: 把输入数…

　MapReduce 为什么如此受欢迎？尤其现在互联网+时代，互联网+公司都在使用 MapReduce。MapReduce 之所以如此受欢迎，它主要有以下几个特点。 &nb…

高能性能计算(High Performance Computing, HPC)和网格计算(Grid Computing)组织多年以来一直在研究大规模数据处理，主要使用类似于消息传递接口(Message Passing I…

MapReduce 案例之Top N 1. Top N Top-N 分析法是指从研究对象中得到所需的 N 个数据，并对这 N 个数据进行重点分析的方法。 2. 实例描述对数据文件中的数据取最大 top-n。数据文件中的…

背景平时在编写前端代码时，习惯使用lodash来编写‘野生’的JavaScript; lodash提供来一套完整的API对JS对象（Array,Object,Collection等）进行操作，这其中就包括_.group…

一、 Time To Live(TTL) 集合 MongoDB 2.2 引入一个新特性–TTL 集合，TTL集合支持失效时间设置，当超过指定时间后，集合自动清除超时文档，者用来保存一个诸如session会话…

最新的aliyun-emapreduce-sdk将MaxCompute数据以DataSource的方式接入Spark 2.x，用户可以使用类似Spark 2.x中读写json/parquet/csv的方式来访问MaxCo…

MapReduce调试常见情况 Idea是一款很赞的IDE，结合Hadoop可以做本地测试+远程调试。首先，我们知道针对MapReduce有以下2种情况。使用本地Hadoop执行任务，前提是数据量要小，否则，速度会很…

本节书摘来异步社区《Hadoop MapReduce性能优化》一书中的第1章，第1.4节，作者：【法】Khaled Tannir 译者：范欢动责编：杨海玲，更多章节内容可以访问云栖社区“异步社区”公众号查看。 1…

一、调优的目的充分的利用机器的性能，更快的完成mr程序的计算任务。甚至是在有限的机器条件下，能够支持运行足够多的mr程序。二、调优的总体概述从mr程序的内部运行机制，我们可以了解到一个mr程序由mapper和red…