robots协议查询方法

关于查询网站关于爬取数据的规则的方法:

网络爬虫排除标准

Robots exclusion protocol

查看网站robots协议的方法:

在网站的域名后面加 /robots.txt

如URL=https://www.pypypy.cn/#/apps/2/lecture/5dc547a8faeb8f00015a0ea8

域名为:http://www.pypypy.cn

User-agent:爬虫类型 Allow允许访问,Disallow禁止访问

淘宝www.taobao.com禁止访问域名下任何页面~

    原文作者:pythonluser
    原文地址: https://blog.csdn.net/pythonluser/article/details/104515310
    本文转自网络文章,转载此文章仅为分享知识,如有侵权,请联系博主进行删除。
点赞