hadoop – 为什么要排序map reduce中生成的中间键?

我理解为什么中间键值按键分组,但为什么要对它们进行排序? 最佳答案 这就是它实现分组的方式.按键排序时,它们会组合在一起.它的排序真的无关紧要……唯一重要的是相等的键彼此相邻.

排序可能不是最好的方法.也许某种散列会更快:O(N)而不是O(NlogN).它被实现为排序只是因为有些应用程序需要排序键(例如HBase / BigTable).

最近一直在进行可插拔排序,并且可以在测试版中使用.我还没有机会尝试一下.
http://hadoop.apache.org/docs/stable/hadoop-mapreduce-client/hadoop-mapreduce-client-core/PluggableShuffleAndPluggableSort.html

点赞