【正完成】Java基于Jsoup的网络爬虫工具实现

Java基于Jsoup的网络爬虫工具实现

一、工具介绍:

首先,先介绍一个好的网页分析工具 Jsoup 

工具下载地址:http://jsoup.org/download

中文说明文档:http://www.open-open.com/jsoup/

英文API文档:http://tool.oschina.net/apidocs/apidoc?api=jsoup-1.6.3

二、我们的项目目的:

直接进入正题,我们的需求是蒐罗一些手机基本信息

目标网站:手机报价-中关村在线(http://detail.zol.com.cn/cell_phone_index/subcate57_0_list_1_0_1_2_0_7.html

主页:这里展示了中关村所有的手机链接,并且此网址有上百页内容,我们要做的就是拉取所有手机详细信息。

《【正完成】Java基于Jsoup的网络爬虫工具实现》

二级页面:点开任意一个手机链接进入二级页面,下拉会发现“参数”里面有手机的一些详细信息,我们要的就是这个!

《【正完成】Java基于Jsoup的网络爬虫工具实现》

三、开始动手做

1.从一级页面抓取所有手机链接,要包含上百页面的所有数据。

     1)尝试抓取一个一级页面的所有数据:

我们使用chrome内置的开发者工具(快捷键F12),选择Network,你会发现你刚才的网络请求url和参数,如图。

《【正完成】Java基于Jsoup的网络爬虫工具实现》

我们可以通过此工具查看当前网页html代码,找到每条链接的标签信息,如图:

《【正完成】Java基于Jsoup的网络爬虫工具实现》

点赞