Spark shuffle-write 和 shuffle-read 中对数据倾斜情况的处理

2023年4月7日 331次阅读来源: jinxing

主要想回答两个问题：

map端(shuffle-write)如何对数据进行分片?
reduce端(shuffle-read)如何读取数据？

ShuffleMapTask中，指定此task运算真对上游RDD的那个partition，即map端的partition，writer.write操作的时候，根据RDD的partitioner生成新的partitionId，然后写入，完成shuffle-write，下游shuffle-read的时候，拉取相应得partition数据即可；

下面插入一段说一下Spark中netty block server的实现：

NettyRpcEnv :: TransportContext-> createServer -> new TransportServer
TransportServer中appRpcHandler就是上层处理逻辑，默认没有安全配置的情况下，bootstraps集合为空；
TransportServer -> init 初始化bootstrap，其中childHandler定义了对请求的处理逻辑，即context.initializePipeline(ch, rpcHandler);
TransportContext :: initializePipeLine 定义了处理请求的pipeline，pipeline中包括对req，rap的encoder，decoder，TransportChannelHandler；
TransportChannelHandler :: channelRead0 根据message的不同，分别调用requestHandler和responseHandler进行处理，上层的RpcHandler就包含在RequestHandler中；

当reduce端读取数据的时候，ShuffleBlockFetcherIterator :: sendRequest 调用 NettyBlockTransferService :: fetchBlocks 调用OneForOneBlockFetcher::start 首先调用TransportClient :: sendRpcSync 发送OpenBlocks发送到上面提到的netty block server，然后发送ChunkFetchRequest，获取对应的chunk，这里面的chunk其实就是一个一个的block，一个(shuffleId, mapId, bucketId(reduceId))唯一确定一个block，也即下游RDD的一个partition；

shuffle-read其实是从上游executor以block为单位获取数据，这里就遇到了一个问题，如果数据分布不均匀，导致下游某个partition过大，即这个block过大，就会出现OOM，Netty会报错direct buffer out of memory；
上面说的OOM是Netty处理数据时堆外内存的OOM，如果限制使用堆外内存(为Executor增加配置-Dio.netty.noUnsafe=true，就可以让shuffle不使用堆外内存)，会报堆内内存OOM，java.lang.OutOfMemoryError: Java heap space；

如何解决？
其实在对Block处理过程中，无论是Client端还是Server端，都是以ManagedBuffer来处理的，具体实现类有FileSegmentManagedBuffer，NettyManagedBuffer等，Server端收到请求之后，会将返回的Block封装在FileSegmentmanagedBuffer，这个类内部不cache数据，提供从文件中读取block data的方法，但是过rpc server时通过encoder会进行封装，从FIleChannel零拷贝写入SocketChannel，具体实现就是在MessageEncoder里面将FileSegmentBuffer converToNetty，其实生成时FileRegion，后面封装到MessageWithHeader也是FileRegion，写出到List<Object> out，Netty会调用FileRegion中的transferTo，将内容写到目标channel，写入是直接调用file.transfer，实现零拷贝；
所以是否可以尝试添加一个新的协议，在OneForOneBlockFetcher中，判断，如果一个block小于某值，比如100M，使用原来的方式fetch数据，否则，服务端收到请求之后返回数据流，客户端收到数据流之后，将数据写到本地文件，形成新的FileSegmentManagedBuffer，供后续处理，对比原来的实现，就是将客户端直接处理NettyManagedBuffer变成直接处理FileSegmentManagedBuffer；

    原文作者：jinxing
    原文地址: https://www.jianshu.com/p/67d0cb7dbbe3
    本文转自网络文章，转载此文章仅为分享知识，如有侵权，请联系博主进行删除。