Hadoop MapReduce 是Hadoop应用层接触很多的工具,对于初学者来说,并不是很容易理解。
在此我总结记录一些MapReduce常见用法。
Word Counting (global) in MapReduce
这个 word counting 是数总字数
- 输入文件分成若干份
- 每一份交给一个map来处理,每个map得到一个 word count 结果
- 各个结果用 reduce 汇总
Word Counting in MapReduce
这个 word counting 与上一个不同,是数每个字的字数
- 输入文件分成若干份
- 每一份交给一个map来处理,生成结果 (hello, 1) (word, 2) …
- 汇总可以按照单词不同来进行