ROBOTS协议

2020年11月8日 121次阅读来源: 小马吃泡面

1、Robots协议简介

Robots协议的全称即网络爬虫排除标准”（Robots Exclusion Protocol）,，网站通过Robots协议告诉搜索引擎（或者网络蜘蛛）可以抓取的页面范围。
robots.txts是一个文本文件，是一个协议，而并非一个命令，其放置在网站的根目录下。robots.txt文件是搜索引擎访问网站时查看的第一个文件，若站点存在robots.txt文件，搜索引擎根据该文件中的内容访问确定的范围；若该文件不存在，则搜索引擎可以访问所有没有被保护的界面。
以某站点为例，其robots.txt文件如图所示：

《ROBOTS协议》

2、Robots协议作用

1、设置网络爬虫访问权限，以保护网站；
2、控制搜索引擎的搜索范围，集中权值到主要界面，而无用界面对于搜索引擎优化而言作用不大；
3、网站内容为个人所有，其意愿应被搜索引擎所尊重，robots协议给了网站所有者表达自己意愿的机会；

3、Robots协议的写法

User-agent:*是一个通配符，表示所有的所有引擎种类；例如Baiduspider,单独限制百度搜索引擎的搜索范围；
Allow：/article 表示允许获取aiticle目录内的内容；
Dissallow：/procuct/ 表示禁止获取product目录下面的目录；
通过以上三个命令，可以组合多种写法，针对具体的搜索引擎限制相应的搜索范围。

4、Robots协议的遵循方式

搜索引擎（网络爬虫）：自动或人工识别robots.txt，再进行内容爬取；

《ROBOTS协议》

5、总结

Robots协议是网站出于安全和隐私考虑，一方面防止搜索引擎和网络爬虫爬取敏感信息而设置，另一方面也避免搜索引擎获取无用界面而提高其效率。

    原文作者：小马吃泡面
    原文地址: https://blog.csdn.net/cold1sober/article/details/82427993
    本文转自网络文章，转载此文章仅为分享知识，如有侵权，请联系博主进行删除。