[译] 在 Apache 和 Nginx 日志里检测爬虫机器人

现在阻止基于 JavaScript 追踪的浏览器插件享有九位数的用户量,从这一事实可以看出,web 流量日志可以成为一个很好的、能够感知有多少人在访问你的网站的地方。但是任何监测过 web 流量日志一段时间的人都知道,有成群结队的爬虫机器人在爬网站。然而,在 web 服务器日志里分辨出机器人和人为产生的流量是一个难题。

在这篇博文中,我将带你们重现那些我在创建一个基于 IPv4 所属和浏览器字串(browser string)的机器人检测脚本时用过的步骤。

本文中用到的代码在这个 代码片段 里。

IP 地址所属数据库

首先,我会安装 Python 和一些依赖包。接下来的指令会在一个新的 Ubuntu 14.04.3 LTS 安装过程中执行。

$ sudo apt-get update
$ sudo apt-get install \
    python-dev \
    python-pip \

接下来我要创建一个 Python 虚拟环境,并且激活它。通过 pip 安装库时,容易遇到权限问题,这样可以缓解这种问题。

$ virtualenv findbots
$ source findbots/bin/activate复制代码

MaxMind 提供了一个免费的数据库,数据库里有 IPv4 地址对应的国家和城市注册信息。和这些数据集一起,他们还发布了一个基于 Python 的库,叫 “geoip2”,这个库可以将他们的数据集映射到内存映射的文件里,并且用基于 C 的 Python 扩展来执行非常快的查询。


$ pip install geoip2
$ curl -O http://geolite.maxmind.com/download/geoip/database/GeoLite2-City.mmdb.gz
$ gunzip GeoLite2-City.mmdb.gz复制代码

我看过一些 web 流量日志,并且抓取出来一些恰好请求了「robots.txt」的流量。从那个列表里,我重点检查了经常出现的 IP 地址中的一些,发现不少 IP 其实是属于主机和云服务提供商的。我想知道是不是有可能攒出来一个列表,无论完不完整,包括了这些提供商所有的 IPv4 地址。

Google 有一个基于 DNS 的机制,用于收集它们用于提供云的 IP 地址列表。这个最初的调用将给你一系列可以查询的主机。

$ dig -t txt _cloud-netblocks.googleusercontent.com | grep spf复制代码
 _cloud-netblocks.googleusercontent.com. 5 IN TXT "v=spf1 include:_cloud-netblocks1.googleusercontent.com include:_cloud-netblocks2.googleusercontent.com include:_cloud-netblocks3.googleusercontent.com include:_cloud-netblocks4.googleusercontent.com include:_cloud-netblocks5.googleusercontent.com ?all"复制代码

以上阐明了 _cloud-netblocks[1-5].googleusercontent.com 将包含 SPF 记录,这些记录里包括他们实用的 IPv4 和 IPv6 CIDR 地址。像如下这样查询所有的五个地址,应当会给你一个最新的列表。

$ dig -t txt _cloud-netblocks1.googleusercontent.com | grep spf复制代码
_cloud-netblocks1.googleusercontent.com. 5 IN TXT "v=spf1 ip4: ip4: ip4: ip4: ip4: ip4: ip4: ip4: ip4: ?all"复制代码

去年三月,基于 Hadoop 的 MapReduce 任务,我尝试着抓取了整个 IPv4 地址空间的 WHOIS 细节,并且发布了一篇 博客文章。这个任务在过早结束之前,跑了接近两个小时,留给了我一份虽然不完整,但是大小可观的数据集,里面有 235,532 个 WHOIS 记录。这个数据集已经存在一年之久了,除了有点过时,应该还是有价值的。

$ ls -l复制代码
-rw-rw-r-- 1 mark mark  5946203 Mar 31  2016 part-00001
-rw-rw-r-- 1 mark mark  5887326 Mar 31  2016 part-00002
-rw-rw-r-- 1 mark mark  6187219 Mar 31  2016 part-00154
-rw-rw-r-- 1 mark mark  5961162 Mar 31  2016 part-00155复制代码

当我重点检查那些爬到「robots.txt」的爬虫机器人的 IP 所属时,除了 Google,这六家公司也出现了很多次:Amazon、百度、Digital Ocean、Hetzner、Linode 和 New Dream Network。我跑了以下的命令,尝试去取出它们的 IPv4 WHOIS 记录。

$ grep -i 'amazon'            part-00* > amzn
$ grep -i 'baidu'             part-00* > baidu
$ grep -i 'digital ocean'     part-00* > digital_ocean
$ grep -i 'hetzner'           part-00* > hetzner
$ grep -i 'linode'            part-00* > linode
$ grep -i 'new dream network' part-00* > dream复制代码

我需要从以上六个文件中,解析二次编码的 JSON 字符串,这些字符串包含了文件名和频率次数信息。我使用了 iPython 代码来获得不同的 CIDR 块,代码如下:

import json

def parse_cidrs(filename):
    lines = open(filename, 'r+b').read().split('\n')

    recs = []

    for line in lines:
        except ValueError:

    return set([str(rec.get('network', {}).get('cidr', None))
                for rec in recs])

for _name in ['amzn', 'baidu', 'digital_ocean',
              'hetzner', 'linode', 'dream']:
    print _name, parse_cidrs(_name)复制代码

下面是一份清理完毕的 WHOIS 记录实例,我已经去掉了联系信息。

    "asn": "38365",
    "asn_cidr": "",
    "asn_country_code": "CN",
    "asn_date": "2010-02-25",
    "asn_registry": "apnic",
    "entities": [
    "network": {
        "cidr": "",
        "country": "CN",
        "end_address": "",
        "events": [
                "action": "last changed",
                "actor": null,
                "timestamp": "2014-09-28T05:44:22Z"
        "handle": " -",
        "ip_version": "v4",
        "links": [
        "name": "Baidu",
        "parent_handle": " -",
        "raw": null,
        "remarks": [
                "description": "Beijing Baidu Netcom Science and Technology Co., Ltd...",
                "links": null,
                "title": "description"
        "start_address": "",
        "status": null,
        "type": "ALLOCATED PORTABLE"
    "query": "",
    "raw": null

这份七个公司的列表不是一个关于爬虫机器人来源的全面的列表。我发现,除了一个从世界各地连接的分布式爬虫战队,很多爬虫流量来源于一些在乌克兰、中国的住宅 IP,源头很难分辨。说实话,如果我想要一个全面的爬虫机器人实用的 IP 列表,我只需要看看 HTTP 头的顺序,检查下 TCP/IP 的行为,搜寻 伪造 IP 注册(请看 28 页),列表就出来了,并且这就像猫和老鼠的游戏一样。


对于这个项目而言,我会实用一些写得很好的库。Apache Log Parser 可以解析 Apache 和 Nginx 生成的流量日志。这个库支持从日志文件中解析超过 30 种不同类型的信息,并且我发现,它相当弹性、可靠。Python User Agents 可以解析用户代理的字符串,并执行一些代理使用的基本分类操作。Colorama 协助创建有高亮的 ANSI 输出。Netaddr 是一种成熟的、维护得很好的网络地址操作库。

$ pip install -e git+https://github.com/rory/apache-log-parser.git#egg=apache-log-parser \
              -e git+https://github.com/selwin/python-user-agents.git#egg=python-user-agents \
              colorama \


接下来的部分是跑 monitor.py 的内容。这段脚本从 stdin(标准输入) 管道中接收 web 流量日志。这说明你可以通过 ssh 在远程服务器上看日志,在本地跑这段脚本。

我先从 Python 标准库里导入两个库,并通过 pip 安装了五个外部库。

import sys
from urlparse import urlparse

import apache_log_parser
from colorama import Back, Style
import geoip2.database
from netaddr import IPNetwork, IPAddress
from user_agents import parse复制代码

接下来我设置好 MaxMind 的 geoip2 库,以使用「GeoLite2-City.mmdb」城市级别的库。

我还设置了 apache_log_parser,来处理存储的 web 日志格式。你的日志格式可能不一样,所以可能需要花点时间比较下你的 web 服务器的流量日志配置与这个库的 格式文档

最后,我有一个我发现的属于那七家公司的 CIDR 块的字典。在这个列表里,从本质上来说,百度不是一家主机或者云提供商,但是跑着很多无法通过它们的用户代理所识别的爬虫机器人。

reader = geoip2.database.Reader('GeoLite2-City.mmdb')

_format = "%h %l %u %t \"%r\" %>s %b \"%{Referer}i\" \"%{User-Agent}i\""
line_parser = apache_log_parser.make_parser(_format)

    'Amazon': ['', '', '',
               '', '', '',
               '', '', '',
               '', '', '',
               '', '', '',
               '', '', '',
               '', '', '',
               '', '', '',
               '', '', '', '',
               '', '', '',
               '', '', '', '',
               '', '', '', '',
               '', '', '', '',
               '', '', '',
               '', '', '',
               '', '', '',
               '', '', '',
               '', '', '',
               '', '', '',
               '', '', '',
               '', '', '',
               '', '', '',
               '', '', '',
               '', '', '',
               '', '', '',
               '', '', '',
               '', '', '',
               '', '', '',
               '', '', '', '',
               '', '', '', '',
               '', '', '',
               '', ''],
    'Baidu': ['', '', '',
    'DO': ['', '', '',
           '', '', '',
           '', '', '',
           '', '', '',
           '', '', '',
           '', '', '',
           '', '', '', ''],
    'Dream': ['', '', '',
              '', ''],
    'Google': ['', '', '',
               '', '', '',
               '', '', '',
               '', '', '',
               '', '', '',
               '', '', '',
               '', '', '',
               '', '', '',
               '', '', '',
               '', '', '',
               '', '', '',
               '', '', '',
               '', '', '',
               '', '',],
    'Hetzner': ['', '', '',
                '', '', '',
                '', '', '',
                '', '', '',
                '', '', '',
                '', '', '',
                '', '', '',
                '', '', '',
                '', '', '',
                '', '', '',
                '', '', '',
                '', '', '',
                '', '', '',
                '', '', '',
    'Linode': ['', '', '',
               '', '', '',
               '', '', '',
               '', '', '',
               '', ''],

我创建了一个工具函数,可以传入一个 IPv4 地址和一个 CIDR 块列表,它会告诉我这个 IP 地址是不是属于给定的这些 CIDR 块中的任何一个。

def in_block(ip, block):
    _ip = IPAddress(ip)
    return any([True
                for cidr in block
                if _ip in IPNetwork(cidr)])复制代码

下面这个函数接收请求( req )和浏览器代理( agent )的对象,并尝试用这两个对象来判断流量源头/浏览器代理是否来自爬虫机器人。这个浏览器代理对象是使用 Python 用户代理库构造的,并且有一些测试用于判断,用户代理字串是否属于某个已知的爬虫机器人。我已经用一些我从库的分类系统中看到的 token 来扩展这些测试。同时我在 CIDR 块迭代,来判断远程主机的 IPv4 地址是否在里面。

def bot_test(req, agent):
    ua_tokens = ['daum/', # Daum Communications Corp.

    is_bot = agent.is_bot or \
                  for cidr in CIDRS.values()
                  if in_block(req['remote_host'], cidr)]) or \
                  for token in ua_tokens
                  if token in agent.ua_string.lower()])

    return is_bot复制代码

下面是脚本的主要部分。web 流量日志从标准输入里一行行地读入。内容的每一行都被解析成一个带 token 版本的请求、用户代理和被请求的 URI。这些对象让与这些数据打交道变得更容易,不需要去麻烦地在空中解析它们。

我尝试着用 MaxMind 的库查询与这些 IPv4 相关的城市和国家。如果有任何类型的查询失败,结果会简单地设置为 None。


if __name__ == '__main__':
    while True:
            line = sys.stdin.readline()
        except KeyboardInterrupt:

        if not line:

        req = line_parser(line)
        agent = parse(req['request_header_user_agent'])
        uri = urlparse(req['request_url'])

            response = reader.city(req['remote_host'])
            country, city = response.country.iso_code, response.city.name
            country, city = None, None

        is_bot = bot_test(req, agent)

        agent_str = ', '.join([item
                               for item in agent.browser[0:3] +
                                           agent.device[0:3] +
                               if item is not None and
                                  type(item) is not tuple and
                                  len(item.strip()) and
                                  item != 'Other'])

        ip_owner_str = ' '.join([network + ' IP'
                                  for network, cidr in CIDRS.iteritems()
                                  if in_block(req['remote_host'], cidr)])

        print Back.RED + 'b' if is_bot else 'h', \
              country, \
              city, \
              uri.path, \
              agent_str, \
              ip_owner_str, \


接下来是一个例子,在把这些内容放到监测脚本时,我是用下面这种方式连接输出 web 流量日志的最后一百行的。

$ ssh server \
    'tail -n100 -f access.log' \
    | python monitor.py复制代码

有可能来源于爬虫机器人的请求将使用红色背景和「b」前缀高亮。不存在爬虫机器人的流量将被打上「h」的前缀,代表 human(人)。下面是从脚本出来的样例输出,不过没有 ANSI 背景色。

b US Indianapolis /robots.txt Python Requests 2.2 Linux 3.2.0
h DE Hamburg /tensorflow-vizdoom-bots.html Firefox 45.0 Windows 7
h DE Hamburg /theme/css/style.css Firefox 45.0 Windows 7
h DE Hamburg /theme/css/syntax.css Firefox 45.0 Windows 7
h DE Hamburg /theme/images/mark.jpg Firefox 45.0 Windows 7
b US Indianapolis /feeds/all.atom.xml rogerbot 1.0 Spider Spider Desktop
b US Mountain View /billion-nyc-taxi-kdb.html  Google IP
h CH Zurich /billion-nyc-taxi-rides-s3-vs-hdfs.html Chrome 56.0.2924 Windows 7
h IE Dublin /tensorflow-vizdoom-bots.html Chrome 56.0.2924 Mac OS X 10.12.0
h IE Dublin /theme/css/style.css Chrome 56.0.2924 Mac OS X 10.12.0
h IE Dublin /theme/css/syntax.css Chrome 56.0.2924 Mac OS X 10.12.0
h IE Dublin /theme/images/mark.jpg Chrome 56.0.2924 Mac OS X 10.12.0
b SG Singapore /./theme/images/mark.jpg Slack-ImgProxy Spider Spider Desktop Amazon IP复制代码
    原文地址: https://juejin.im/post/58ea5758ac502e4957c78808