爬虫|使用python爬取微信公众号全部的文章(永久链接)——技术难点

前一篇文章我利用Anyproxy爬取微信公众号文章及临时链接转永久链接,这个方法可以获取到文章的点赞数,阅读数之类的信息。如果你的需求只是需要获取某个微信公众号的所有文章,并且文章的链接是永久链接,那么看看我这篇文章上介绍的方法吧。

一、先说破解之道

破解的关键就是利用微信公众号后台素材管理-新建图文素材-超链接-查找文章(公众号)的接口。如下图:

《爬虫|使用python爬取微信公众号全部的文章(永久链接)——技术难点》 进入微信公众号后台-素材管理-新建图文素材-新建图文消息
《爬虫|使用python爬取微信公众号全部的文章(永久链接)——技术难点》 超链接-查找文章(公众号)

二、具体破解方法

2.1 通过selenium+webdriver获取公众号的Cookie

因为在公众号后台请求“查找文章(公众号)”接口时需要一个微信公众号的Cookie,所以在爬文章内容之前需要先获取一个可用的Cookie。这块相对来说比较简单,我就直接贴上我写的代码。PS:尽情优化完善吧。

《爬虫|使用python爬取微信公众号全部的文章(永久链接)——技术难点》 获取Cookie

2.2 通过微信公众号获取公众号文章接口获取文章

1)微信公众号登陆地址:https://mp.weixin.qq.com/

2)登录之后获取token。

《爬虫|使用python爬取微信公众号全部的文章(永久链接)——技术难点》

3)利用微信公众号后台新建图文消息,搜索公众号名称,需要上一步的token。

《爬虫|使用python爬取微信公众号全部的文章(永久链接)——技术难点》 搜索公众号

并且通过接口返回的内容获取公众号的fakeid。

《爬虫|使用python爬取微信公众号全部的文章(永久链接)——技术难点》 获取公众号的fakeid

4)选定要爬取的公众号,获取文章接口地址,需要上一步的fakeid。

《爬虫|使用python爬取微信公众号全部的文章(永久链接)——技术难点》

5)文章列表翻页及内容获取。

《爬虫|使用python爬取微信公众号全部的文章(永久链接)——技术难点》 文章列表第一页

《爬虫|使用python爬取微信公众号全部的文章(永久链接)——技术难点》 翻页和内容

三、完整代码

《爬虫|使用python爬取微信公众号全部的文章(永久链接)——技术难点》 完成代码

四、这个可是技术难点呢,点个赞呗

点赞