爬取ajax异步网页数据

ajax是通过javascript访问服务器获得数据的方式,数据并不会直接体现在html源码中,而且很大可能在源码中不能发现数据访问的链接,这就很棘手了,

这里以苹果的招聘主页为例 https://jobs.apple.com/us/search
它的jobs list是使用ajax加载的,
打开Chrome开发者工具,
View > Developer > Developer Tools

《爬取ajax异步网页数据》 developer_tools.png

选择Network选项然后选取XHR,

《爬取ajax异步网页数据》 屏幕快照 2017-03-11 下午6.48.33.png

点击刷新,就会看到有 .json 或者 .xml文件这就是我们寻找的数据文件

在Response 中是数据内容,在Headers中可以发现数据文件的URL,

《爬取ajax异步网页数据》 headers.png

然后编写脚本抓取数据就行了,
可以参考以前的爬取58上的手机号码

    原文作者:苟雨
    原文地址: https://www.jianshu.com/p/fd8df007476c
    本文转自网络文章,转载此文章仅为分享知识,如有侵权,请联系博主进行删除。
点赞