scrapy抓取瀑布流网页过程中遇到滚动翻页的解决办法

http://9gag.com/ask9gag
这个网站为例,列表页明显是一个瀑布流的形式,不是传统的分页。该页面翻页是靠鼠标滚动到页面下方的时候翻滚出下一页的内容,再继续滚动的时候再翻,依次类推。
用爬虫爬取第一页的内容没什么技术含量,难的是如何进行翻页爬取以后各个页面的内容。

解决步骤:
一开始并不知道该页面是通过一种什么机制来翻页的,所以在火狐浏览器中打开f12,点击“控制台”,然后鼠标滚动到该页面底端,看看发出了什么请求:

《scrapy抓取瀑布流网页过程中遇到滚动翻页的解决办法》 图片.png

原来请求了这样一个网址,然后鼠标持续往下滚动,可以发现:

《scrapy抓取瀑布流网页过程中遇到滚动翻页的解决办法》 图片.png

看看红框内请求的网址,原来鼠标不断滚动,就会不断发出请求下一页的url。
那些形如”c=10″或者”c=20″的参数一看便知就是用来控制获取的下一批条目用的。

《scrapy抓取瀑布流网页过程中遇到滚动翻页的解决办法》 图片.png

猜想一下 原网页当中很可能有个地方调用了上图红框中的地址。
此时只要到原网页的源代码中去查找一下即可(当然只查找其中一段字符串,不要查整个url)。果不其然:

《scrapy抓取瀑布流网页过程中遇到滚动翻页的解决办法》 图片.png

发现了这个 “<a> ”标签就好办多了,往下的步骤就不再赘述了。

(待续)

    原文作者:BlueCat2016
    原文地址: https://www.jianshu.com/p/644e10f3ae4f
    本文转自网络文章,转载此文章仅为分享知识,如有侵权,请联系博主进行删除。
点赞