利用Scrapy爬取雪球5万粉丝以上大V

2019年6月11日 424次阅读来源: Dohn_商业PM

1 背景

朋友在研究股票相关资讯，再加上自己对股票也比较有兴趣，于是研究能否通过Scrapy爬取雪球数据。本次主要爬取粉丝在5w以上的大v名单。

《利用Scrapy爬取雪球5万粉丝以上大V》 xueqiu.com

2 输出结果

《利用Scrapy爬取雪球5万粉丝以上大V》

3 使用工具：Scrapy

Scrapy是一个为了爬取网站数据，提取结构性数据而编写的python应用框架。相较于通过urlib库来爬取数据，Scrapy则更为专业、快捷，尤其在递归爬取这块。

4 编码思路

从一个雪球大V开始出发，找到它的粉丝列表，如果他的粉丝列表中有5w粉以上的，则递归一次。

5 编码

Scrapy主要工作量就是spider代码，如下：

《利用Scrapy爬取雪球5万粉丝以上大V》

spider文件code

6 注意点

注 1：通过以下链接可以查看指定用的粉丝列表，该链接可以通过访问用户列表的时候通过fiddler工具抓取出来：https://xueqiu.com/friendships/followers.json?pageNo=9&uid=5964068708

《利用Scrapy爬取雪球5万粉丝以上大V》
小小辛巴分页粉丝返回结果

注 2 ：通过该段代码可以模拟用户登录，否则会出现Not allowed或者fobbiden字样，headers信息可通过firefox的f12的网络里找。

注 3 ：防止重复爬取，否则无线循环

注 4：输出到文本。通过这种方式可以即时看到爬取的用户信息，而且雪球整体5w粉以上的并不多

注 5：限制爬取页面数量，节省计算资源，至于为什么是20000，因为最大的大v小小辛巴也就2w页

《利用Scrapy爬取雪球5万粉丝以上大V》不再爬取未完善资料用户

注 6：该处为递归，处理好要处理的链接后，重新进行迭代计算。

业余兴趣学习中，欢迎指导，希望能认识互联网行业产品、运营、技术潜力股。

    原文作者：Dohn_商业PM
    原文地址: https://www.jianshu.com/p/b793d35a21cf
    本文转自网络文章，转载此文章仅为分享知识，如有侵权，请联系博主进行删除。