mapreduce知识点记录

2023年8月5日 198次阅读来源: 奈文摩尔ST

selfMapper extends Mapper< LongWritable, Text, Text, IntWritable>

其中LongWritable是某一行起始位置相对于文件起始位置的偏移量

FileSplit

继承extends InputSplit
FileSplit fileSplit=(FileSplit) context.getInputSplit();
String pathname=fileSplit.getPath().getName();//获取目录名字
intdepth = fileSplit.getPath().depth();//获取目录深度
Class class1 = fileSplit.getClass();//获取当前类
longlength = fileSplit.getLength();//获取文件长度
SplitLocationInfo[] locationInfo = fileSplit.getLocationInfo();//获取位置信息
String[] locations = fileSplit.getLocations();//获取位置
longstart = fileSplit.getStart();//The position of the first byte in the file to process.

多文件输入与输出

1.多文件输入
FileInputFormat.setInputPaths()
方法：static void setInputPaths(Job job, Path… inputPaths)、
static void setInputPaths(Job job, String commaSeparatedPaths)
2.多文件输出（MultipleOutputs）
public static class AlphabetOutputFormat extends MultipleOutputFormat {
@Override
protected String generateFileNameForKeyValue(Text key, IntWritable value, Configuration conf) {
charc = key.toString().toLowerCase().charAt(0);
if(c >=’a’&& c <=’z’) {
returnc +”.txt”;
}
return”other.txt”;
}
}

Combiner

作为map和reduce的中间环节，它的作用是聚合map task的磁盘，减少map端磁盘写入，减少reduce端处理的数据量，对于有大量shuffle的job来说，性能往往取决于reduce端。因为reduce 端要经过从map端copy数据、reduce端归并排序，最后才是执行reduce方法，此时如果可以减少map task输出将对整个job带来非常大的影响。
什么时候可以使用Combiner？
比如你的Job是WordCount，那么完全可以通过Combiner对map 函数输出数据先进行聚合，然后再将Combiner输出的结果发送到reduce端。
什么时候不能使用Combiner？
WordCount在reduce端做的是加法，如果我们reduce需求是计算一大堆数字的平均数，则要求reduce获取到全部的数字进行计算，才可以得到正确值。此时，是不能使用Combiner的，因为会其会影响最终结果。注意事项：即使设置Combiner，它也不一定被执行（受参数min.num.spills.for.combine影响），所以使用Combiner的场景应保证即使没有Combiner，我们的MapReduce也能正常运行。

shuffle与排序

Mapreduce的map结束后，把数据重新组织，作为reduce阶段的输入，该过程称之为shuffle—洗牌。
而数据在Map与Reduce端都会做排序。
Map
• Map 的输出是由collector控制的
• 我们从collect函数入手
Reduce
•reduce的Shuffle过程，分成三个阶段：复制Map输出、排序合并、reduce处理。
•主要代码在reduce的 run函数

JVM重用

启动JVM是一个比较耗时的工作，所以在MapReduce中有JVM重用的机制。
•条件是统一个作业的任务。
•可以通过mapred.job.reuse.jvm.num.tasks定义重用次数，如果属性是-1那么为无限制

StringTokenizer

１、构造函数。
1.StringTokenizer(String str)：构造一个用来解析str的StringTokenizer对象。java默认的分隔符是“空格”、“制表符(‘\t’)”、“换行符(‘\n’)”、“回车符(‘\r’)”。
2.StringTokenizer(String str, String delim)：构造一个用来解析str的StringTokenizer对象，并提供一个指定的分隔符。
3.StringTokenizer(String str, String delim, boolean returnDelims)：构造一个用来解析str的StringTokenizer对象，并提供一个指定的分隔符，同时，指定是否返回分隔符。
２、方法。
说明：
1. 所有方法均为public；
2. 书写格式：［修饰符］　<返回类型> <方法名（［参数列表］）>
如：
static int parseInt(String s) 表示：此方法（parseInt）为类方法（static），返回类型为（int），方法所需参数为String类型。
1.int countTokens()：返回nextToken方法被调用的次数。如果采用构造函数1和2，返回的就是分隔符数量(例2)。
2.boolean hasMoreTokens()：返回是否还有分隔符。
3.boolean hasMoreElements()：结果同2。
4.String nextToken()：返回从当前位置到下一个分隔符的字符串。
5.Object nextElement()：结果同4。
6.String nextToken(String delim)：与4类似，以指定的分隔符返回结果。

待续。。。。。。。。。。。。。。。

    原文作者：奈文摩尔ST
    原文地址: https://www.jianshu.com/p/d8c358d8c853
    本文转自网络文章，转载此文章仅为分享知识，如有侵权，请联系博主进行删除。