惊群问题及解决

2024年1月16日 129次阅读来源: 沧海不许笑

1.什么是惊群？

当多个进程/线程同时等待同一个socket的事件，当事件发生时，多个进程/线程同时被唤醒，但只有一个进程/线程响应处理该事件，其他被唤醒的进程/线程重新休眠，这种情况称为惊群。

由于唤醒进程需要内核重新调度，所以那些没有响应处理事件的进程也被唤醒就意味着性能浪费，所以需要采取措施避免惊群发生。

需要说明的是，对于accept()函数，Linux2.6已经从内核层面解决了惊群问题，做法是当连接来到后，只唤醒等待队列中的第一个进程或线程。

当使用select,poll,epoll时，仍然会有惊群问题。

特别需要注意的是，即便是2.6以后的linux，epoll_wait在某些场景下不会出现惊群问题，但其仍旧有很大可能会在另外的场景中出现惊群问题。

例如，当epoll_wait之后又sleep的情况，因为信号将唤醒sleep，不再是内核唤醒等待队列中的第一个进程。

(1)在accept之前加锁，像Nginx那样；
lock;
accept();
unlock;

(2)在linux kernel 3.9之后利用SO_REUSEPORT，将socket属性加多一个SO_REUSEPORT
fcntl(serverFd,F_SETFL,flags | O_NONBLOCK |SO_REUSEPORT)

    原文作者：沧海不许笑
    原文地址: https://segmentfault.com/a/1190000012005890
    本文转自网络文章，转载此文章仅为分享知识，如有侵权，请联系博主进行删除。