爬虫课程（十一）｜知乎：使用Scrapy模拟登录知乎

2019年6月11日 280次阅读

前面爬虫课程七、八、九、十，我把爬虫豆瓣读书的爬虫讲解完毕啦，我们很顺利地爬取了豆瓣读书书籍内容，爬取过程中也不需要用户登陆。

然而，有些时候，我们要爬取某些信息时是需要我们在登陆的情况下才能获取到对应信息的，这个时候我们怎么样使用Scrapy进行模拟登陆呢？接下来的文章我将以爬取知乎问答内容为例来讲解如何使用Scrapy进行模拟登陆。

一、分析知乎登录的请求api

我们先进入知乎的登录页面，输入用户名和密码（为了查看登录时请求的api信息，我这里故意把密码输错），点击登录，查看右边Network信息。

《爬虫课程（十一）｜知乎：使用Scrapy模拟登录知乎》知乎登录

通过Network截取到使用email登录（见下图1）时的请求api为https://www.zhihu.com/login/email（见下图2），请求需要的From Data为_xsrf、password、captcha_type和email，其中captcha_type为固定值2，_xsrf是上一个页面动态获取的，email和password为登录邮箱和密码。

《爬虫课程（十一）｜知乎：使用Scrapy模拟登录知乎》知乎登录需要的值