利用Scrapy爬取雪球5万粉丝以上大V

1 背景

朋友在研究股票相关资讯,再加上自己对股票也比较有兴趣,于是研究能否通过Scrapy爬取雪球数据。本次主要爬取粉丝在5w以上的大v名单。

《利用Scrapy爬取雪球5万粉丝以上大V》 xueqiu.com

2 输出结果

5w粉以上大V共171人

《利用Scrapy爬取雪球5万粉丝以上大V》

3 使用工具:Scrapy

Scrapy是一个为了爬取网站数据,提取结构性数据而编写的python应用框架。相较于通过urlib库来爬取数据,Scrapy则更为专业、快捷,尤其在递归爬取这块。

4 编码思路

从一个雪球大V开始出发,找到它的粉丝列表,如果他的粉丝列表中有5w粉以上的,则递归一次。

5 编码

Scrapy主要工作量就是spider代码,如下:

《利用Scrapy爬取雪球5万粉丝以上大V》
《利用Scrapy爬取雪球5万粉丝以上大V》
spider文件code

6 注意点

注 1:通过以下链接可以查看指定用的粉丝列表,该链接可以通过访问用户列表的时候通过fiddler工具抓取出来:https://xueqiu.com/friendships/followers.json?pageNo=9&uid=5964068708

《利用Scrapy爬取雪球5万粉丝以上大V》
小小辛巴分页粉丝返回结果

注 2 :通过该段代码可以模拟用户登录,否则会出现Not allowed或者fobbiden字样,headers信息可通过firefox的f12的网络里找。

注 3 :防止重复爬取,否则无线循环

注 4:输出到文本。通过这种方式可以即时看到爬取的用户信息,而且雪球整体5w粉以上的并不多

注 5:限制爬取页面数量,节省计算资源,至于为什么是20000,因为最大的大v小小辛巴也就2w页

《利用Scrapy爬取雪球5万粉丝以上大V》  不再爬取未完善资料用户

注 6:该处为递归,处理好要处理的链接后,重新进行迭代计算。

业余兴趣学习中,欢迎指导,希望能认识互联网行业产品、运营、技术潜力股。

    原文作者:Dohn_商业PM
    原文地址: https://www.jianshu.com/p/b793d35a21cf
    本文转自网络文章,转载此文章仅为分享知识,如有侵权,请联系博主进行删除。
点赞