爬虫课程(十一)|知乎:使用Scrapy模拟登录知乎

前面爬虫课程七、八、九、十,我把爬虫豆瓣读书的爬虫讲解完毕啦,我们很顺利地爬取了豆瓣读书书籍内容,爬取过程中也不需要用户登陆。

然而,有些时候,我们要爬取某些信息时是需要我们在登陆的情况下才能获取到对应信息的,这个时候我们怎么样使用Scrapy进行模拟登陆呢?接下来的文章我将以爬取知乎问答内容为例来讲解如何使用Scrapy进行模拟登陆。

一、分析知乎登录的请求api

我们先进入知乎的登录页面,输入用户名和密码(为了查看登录时请求的api信息,我这里故意把密码输错),点击登录,查看右边Network信息。

《爬虫课程(十一)|知乎:使用Scrapy模拟登录知乎》 知乎登录

通过Network截取到使用email登录(见下图1)时的请求api为https://www.zhihu.com/login/email(见下图2),请求需要的From Data为_xsrf、password、captcha_type和email,其中captcha_type为固定值2,_xsrf是上一个页面动态获取的,email和password为登录邮箱和密码。

《爬虫课程(十一)|知乎:使用Scrapy模拟登录知乎》 知乎登录需要的值

通过对知乎登录需要提交的From Data信息进行分析得知只有_xsrf这个参数的值是需要动态获取,并且是从上一个页面(https://www.zhihu.com/#signin)进行获取过来的,如果在登录时没有_xsrf值时登录请求会返回校验失败。

如何获取_xsrf?见下图,请求zhihu.com时查看Response信息(下图2),从页面中找出_xsrf值存储的位置(下图3)。

《爬虫课程(十一)|知乎:使用Scrapy模拟登录知乎》 获取_xsrf

好,至此我就把整个思路已经说清楚啦,接下来贴上完整代码。

二、实现知乎登录的代码

《爬虫课程(十一)|知乎:使用Scrapy模拟登录知乎》 代码1
《爬虫课程(十一)|知乎:使用Scrapy模拟登录知乎》 代码2

点赞