robots协议查询方法

2024年2月9日 118次阅读来源: pythonluser

关于查询网站关于爬取数据的规则的方法：

网络爬虫排除标准

Robots exclusion protocol

查看网站robots协议的方法：

在网站的域名后面加 /robots.txt

如URL=https://www.pypypy.cn/#/apps/2/lecture/5dc547a8faeb8f00015a0ea8

域名为：http://www.pypypy.cn

User-agent:爬虫类型 Allow允许访问，Disallow禁止访问

淘宝www.taobao.com禁止访问域名下任何页面~

    原文作者：pythonluser
    原文地址: https://blog.csdn.net/pythonluser/article/details/104515310
    本文转自网络文章，转载此文章仅为分享知识，如有侵权，请联系博主进行删除。