关于查询网站关于爬取数据的规则的方法:
网络爬虫排除标准
Robots exclusion protocol
查看网站robots协议的方法:
在网站的域名后面加 /robots.txt
如URL=https://www.pypypy.cn/#/apps/2/lecture/5dc547a8faeb8f00015a0ea8
域名为:http://www.pypypy.cn
User-agent:爬虫类型 Allow允许访问,Disallow禁止访问
淘宝www.taobao.com禁止访问域名下任何页面~