使用 Nginx 过滤网络爬虫

2024年5月11日 170次阅读来源: Eastern_Cloud

现在有许多初学者学习网络爬虫，但他们不懂得控制速度，导致服务器资源浪费。通过 Nginx 的简单配置，能过滤一小部分这类爬虫。

方法一：通过 User-Agent 过滤

Nginx 参考配置如下：

    location / {
        if ($http_user_agent ~* "scrapy|python|curl|java|wget|httpclient|okhttp") {
            return 503;
        }
        # 正常请求
    }

这里只列出了部分爬虫的 User-Agent，需要更多请参考：GitHub – JayBizzle/Crawler-Detect

注意：User-Agent 很容易修改

方法二：block IP

通过禁止某个 IP 或者某个 IP 段访问，也能起到一定效果。
Nginx 示例配置如下：

deny 178.238.234.1;
deny 1.32.128.0/18;

方法三：rate limit

通过限制某个 IP 的访问频率，避免一部分 CC （Challenge Collapsar）攻击。

Nginx 示例配置如下：

http{ 
    #定义一个名为allips的limit_req_zone用来存储session，大小是10M内存，
    #以$binary_remote_addr 为key,限制平均每秒的请求为20个，
    #1M能存储16000个状态，rete的值必须为整数，
    #如果限制两秒钟一个请求，可以设置成30r/m
    limit_req_zone $binary_remote_addr zone=allips:10m rate=20r/s;
    ...
    server{
        ...
        location {
            ...
            #限制每ip每秒不超过20个请求，漏桶数burst为5
            #brust的意思就是，如果第1秒、2,3,4秒请求为19个，
            #第5秒的请求为25个是被允许的。
            #但是如果你第1秒就25个请求，第2秒超过20的请求返回503错误。
            #nodelay，如果不设置该选项，严格使用平均速率限制请求数，
            #第1秒25个请求时，5个请求放到第2秒执行，
            #设置nodelay，25个请求将在第1秒执行。
 
            limit_req zone=allips burst=5 nodelay;
            ...
        }
        ...
    }
    ...
}

当然，攻击者也可以使用代理IP来破除频率限制。建议在网站前面加一层 CDN。

参考：nginx限制某个IP同一时间段的访问次数

首发地址：使用 Nginx 过滤网络爬虫 | 蜻蜓代理

    原文作者：Eastern_Cloud
    原文地址: https://segmentfault.com/a/1190000012915187
    本文转自网络文章，转载此文章仅为分享知识，如有侵权，请联系博主进行删除。