python爬虫的合法性与robots 协议

一、robots 协议

      robots 协议也称作爬虫协议、机器人协议,它的全名叫作网络爬虫排除标准(Robots Exclusion  Protocol ),当使用一个爬虫爬取一个网站的数据时,需要遵守网站所有者针对所有爬虫所制定的协议! 简单说就是是一种存放于网站根目录下的ASCII 编码的文本文件,它通常告诉网络搜索引擎的漫游器(又称网络蜘蛛),此网站中的哪些内容是不应被搜索引擎的漫游器获取的,哪些是可以被漫游器获取的。

robots.txt 的样例
User-agent: *
Disallow :/
Allow:/public/

      这实现了对所有搜索爬虫只允许爬取public 目录的功能,将上述内容保存成robots.txt 文件,
放在网站的根目录下,和网站的入口文件(比如index.php、index.html 和index.jsp 等)放在一起。
      上面的User-agent 描述了搜索爬虫的名称,这里将其设置为*则代表该协议对任何爬取爬虫
有效。比如,我们可以设置:User-agent: Baiduspider 。这就代表我们设置的规则对百度爬虫是有
效的。如果有多条User-agent 记录,则就会有多个爬虫会受到爬取限制,但至少需要指定一条。
Disallow 指定了不允许抓取的目录,比如上例子中设置为/则代表不允许抓取所有页面。Allow
一般和Disallow 一起使用,一般不会单独使用,用来排除某些限制。现在我们设置为/public /,
则表示所有页面不允许抓取,但可以抓取public 目录。

禁止所有爬虫访问任何目录的代码如下:

User - agent : *
Disallow : /

允许所有爬虫访问任何目录的代码如下:

User - agent : *
Disallow :

禁止所有爬虫访问网站某些目录的代码如下:

User - agent : *
Disallow : / private /
Disallow : /tmp /

只允许某一个爬虫访问的代码如下:

User - agent : WebCrawler
Disallow :
User - agent : *
Disallow : /

二、查看网页的robots 协议

      https://www.baidu.com/robots.txt

合法的爬虫

      1. 遵守Robots 协议
      Robots 协议也叫robots.txt(统一小写)是一种存放于网站根目录下的ASCII 编码的文
本文件,它通常告诉网络搜索引擎的漫游器(又称网络蜘蛛),此网站中的哪些内容是
不应被搜索引擎的漫游器获取的,哪些是可以被漫游器获取的。
      Robots 协议就是告诉爬虫,哪些信息是可以爬取,哪些信息不能被爬取,严格按照
Robots 协议爬取网站相关信息一般不会出现太大问题。
      2. 不能造成对方服务器瘫痪
      但不是说只要遵守Robots 协议的爬虫就没有问题,还涉及到两个因素,第一不能大规
模爬虫导致对方服务器瘫痪,这等于网络攻击。
      2019 年05 月28 日国家网信办发布的《数据安全管理办法(征求意见稿)》中,拟通
过行政法规的形式,对爬虫的使用进行限制:
网络运营者采取自动化手段访问收集网站数据,不得妨碍网站正常运行;此类行为严
重影响网站运行,如自动化访问收集流量超过网站日均流量三分之一,网站要求停止
自动化访问收集时,应当停止。
       3. 不能非法获利
      恶意利用爬虫技术抓取数据,攫取不正当竞争的优势,甚至是牟取不法利益的,则可
能触犯法律。实践中,非法使用爬虫技术抓取数据而产生的纠纷其实数量并不少,大
多是以不正当竞争为由提请诉讼。  

      举个例子,如果你把大众点评上的所有公开信息都抓取了下来,自己复制了一个一模
一样的网站,并且还通过这个网站获取了大量的利润,这样也是有问题的。
一般情况下,爬虫都是为了企业获利的,因此需要爬虫开发者的道德自持和企业经营
者的良知才是避免触碰法律底线的根本所在。

违法的爬虫

      1. 爬虫不能涉及个人隐私!
      “一个程序员写了个爬虫程序,整个公司200 多人被端了。”
      如果爬虫程序采集到公民的姓名、身份证件号码、通信通讯联系方式、住址、账号密
码、财产状况、行踪轨迹等个人信息,并将之用于非法途径的,则肯定构成非法获取
公民个人信息的违法行为。
      也就是说你爬虫爬取信息没有问题,但不能涉及到个人的隐私问题,如果涉及了并且
通过非法途径收益了,那肯定是违法行为。
      另外,还有下列三种情况,爬虫有可能违法,严重的甚至构成犯罪:
      2. 爬虫程序规避网站经营者设置的反爬虫措施或者破解服务器防抓取措施,非法获取相
关信息,情节严重的,有可能构成“非法获取计算机信息系统数据罪”。
      3. 爬虫程序干扰被访问的网站或系统正常运营,后果严重的,触犯刑法,构成“破坏计
算机信息系统罪”
      4. 爬虫采集的信息属于公民个人信息的,有可能构成非法获取公民个人信息的违法行为,
情节严重的,有可能构成“侵犯公民个人信息罪”。

想了解更多爬虫可移步:Python网络爬虫教程详解.pdf_python网页爬虫教程-互联网文档类资源-CSDN下载

    原文作者:易小侠
    原文地址: https://blog.csdn.net/dwf1354046363/article/details/120250315
    本文转自网络文章,转载此文章仅为分享知识,如有侵权,请联系博主进行删除。
点赞