hadoop-streaming 多路输出

hadoop streaming 中 reducer 的输出文件类似:${outputDir}/part-******,其中 ***** 是 reducer 任务的任务号。但有的时候我们希望 reducer 能够输出到多路文件,例如,对于文件符合某个条件的,输出到 part-*****-A,其余的输出到 part-*****-B。

1. hadoop-v2-u7 的版本为 streaming 引入了两个多路输出的插件:SuffixMultipleTextOutputFormatSuffixMultipleSequenceFileOutputFormat。如果要直接使用这两个插件,需要保证客户端和服务器上的 hadoop 版本均为 hadoop-v2-u7 或者更高

2.写一个jar包,上传进行设置。操作如:https://www.linuxidc.com/Linux/2012-07/66338.htm

    原文作者:吹洞箫饮酒杏花下
    原文地址: https://www.jianshu.com/p/13dcfcbddcba
    本文转自网络文章,转载此文章仅为分享知识,如有侵权,请联系博主进行删除。
点赞