scrapy抓取瀑布流网页过程中遇到滚动翻页的解决办法

2019年6月11日 366次阅读来源: BlueCat2016

以http://9gag.com/ask9gag
这个网站为例，列表页明显是一个瀑布流的形式，不是传统的分页。该页面翻页是靠鼠标滚动到页面下方的时候翻滚出下一页的内容，再继续滚动的时候再翻，依次类推。
用爬虫爬取第一页的内容没什么技术含量，难的是如何进行翻页爬取以后各个页面的内容。

解决步骤：
一开始并不知道该页面是通过一种什么机制来翻页的，所以在火狐浏览器中打开f12，点击“控制台”，然后鼠标滚动到该页面底端，看看发出了什么请求：

《scrapy抓取瀑布流网页过程中遇到滚动翻页的解决办法》图片.png

原来请求了这样一个网址，然后鼠标持续往下滚动，可以发现：

《scrapy抓取瀑布流网页过程中遇到滚动翻页的解决办法》图片.png

看看红框内请求的网址，原来鼠标不断滚动，就会不断发出请求下一页的url。
那些形如”c=10″或者”c=20″的参数一看便知就是用来控制获取的下一批条目用的。

《scrapy抓取瀑布流网页过程中遇到滚动翻页的解决办法》图片.png

猜想一下原网页当中很可能有个地方调用了上图红框中的地址。
此时只要到原网页的源代码中去查找一下即可（当然只查找其中一段字符串，不要查整个url）。果不其然：

《scrapy抓取瀑布流网页过程中遇到滚动翻页的解决办法》图片.png

发现了这个 “<a> ”标签就好办多了,往下的步骤就不再赘述了。

（待续）

    原文作者：BlueCat2016
    原文地址: https://www.jianshu.com/p/644e10f3ae4f
    本文转自网络文章，转载此文章仅为分享知识，如有侵权，请联系博主进行删除。