百分之八十的网站都是有反爬虫的！只需五部就能带你破解反爬！

2019年5月18日 113次阅读来源: 编程新视野

《百分之八十的网站都是有反爬虫的！只需五部就能带你破解反爬！》

常见的反爬策略

首先，既然要破解这些常见的反爬策略，就首先需要知道常见的反爬策略有哪些，所谓知己知彼，百战百胜。

《百分之八十的网站都是有反爬虫的！只需五部就能带你破解反爬！》

解决策略

1. 伪装user agent

User-Agent是检查用户所用客户端的种类和版本。通过设置UA可以伪装成浏览器进行访问目标网站

《百分之八十的网站都是有反爬虫的！只需五部就能带你破解反爬！》

3.图片识别验证码

对于一些简单的验证手段，可以通过pytesseract和PIL库进行图像识别，获取验证码，从而突破验证码限制。

当然也可以自己训练机器识别，这部分涉及到AI的知识，就不深入了。

例如豆瓣的验证码

《百分之八十的网站都是有反爬虫的！只需五部就能带你破解反爬！》

5.其他突破方法

降低访问的频率。例如：每抓取一个页面就休息随机秒（个人感觉比固定时间的要好）；限制每天抓取的页面数量。

添加cookie。对于需要登录的网页来说，这是必要的一步

注：想学习Python的小伙伴们进群：984632579领取从0到1完整学习资料视频源码精品书籍一个月经典笔记和99道练习题及答案

《百分之八十的网站都是有反爬虫的！只需五部就能带你破解反爬！》

    原文作者：编程新视野
    原文地址: https://www.jianshu.com/p/39fca1075a0b
    本文转自网络文章，转载此文章仅为分享知识，如有侵权，请联系博主进行删除。