这篇文章重要引见了NodeJS制造爬虫的全过程,包括项目竖立,目的网站剖析、运用superagent猎取源数据、运用cheerio剖析、运用eventproxy来并发抓取每一个主题的内容等方面,有须要的小伙伴参考下吧。
一、 依靠
1. DOM操纵 cheerio
2. 要求插件 request
3. http库 superagent
4. 代办 eventproxy
二、竖立项目node-spider
1. 竖立一个Koa2项目
npm install -g koa-generator
2. 天生一个koa2的项目
koa2 -e node-spider
-e示意运用ejs模板,详细参照koa天生器,一键天生koa和koa2项目
三、目的网站剖析
如图,这是CNode首页一部分div标签,我们就是经由过程这一系列的id、class来定位我们须要的信息。
四、爬虫功用制造
1. superagent
是ajax API来运用的Http库,它的运用要领与jQuery差不多,我们经由过程它提议get要求,在回调函数中输出效果。
var koa = require('koa');
var router = require('koa-router')
var url = require('url'); //剖析操纵url
var superagent = require('superagent'); //这三个外部依靠不要遗忘npm install
var cheerio = require('cheerio');
var eventproxy = require('eventproxy');
var targetUrl = 'https://cnodejs.org/';
superagent.get(targetUrl)
.end(function (err, res) {
console.log(res);
});
它的res效果为一个包括目的url信息的对象,网站内容重要在其text(string)里。
2. 运用cheerio剖析
cheerio充任服务器端的jQuery功用,我们先运用它的.load()来载入HTML,再经由过程CSS selector来挑选元素。
var $ = cheerio.load(res.text);
//经由过程CSS selector来挑选数据
$('#topic_list .topic_title').each(function (idx, element) {
console.log(element);
});
其效果为一个个对象,挪用 .each(function(index, element))
函数来遍历每一个对象,返回的是HTML DOM Elements。
输出 console.log($element.attr('title'));
的效果为广州2014年12月06日 NodeParty 之 UC 场之类的题目
输出 console.log($element.attr('href'));
的效果为 /topic/545c395becbcb78265856eb2之类的url
。
再用NodeJS1的url.resolve()
函数来补全完全的url。
superagent.get(tUrl)
.end(function (err, res) {
if (err) {
return console.error(err);
}
var topicUrls = [];
var $ = cheerio.load(res.text);
// 猎取首页一切的链接
$('#topic_list .topic_title').each(function (idx, element) {
var $element = $(element);
var href = url.resolve(tUrl, $element.attr('href'));
console.log(href);
//topicUrls.push(href);
});
});
3.运用eventproxy来并发抓取
教程上展现了深度嵌套(串行)要领和计数器要领的例子,eventproxy就是运用事宜(并行)要领来处置惩罚这个题目。当一切的抓取完成后,eventproxy接收到事宜音讯自动帮你挪用处置惩罚函数。
//第一步:获得一个 eventproxy 的实例
var ep = new eventproxy();
//第二步:定义监听事宜的回调函数。
//after要领为反复监听
//params: eventname(String) 事宜名,times(Number) 监听次数, callback 回调函数
ep.after('topic_html', topicUrls.length, function(topics){
// topics 是个数组,包括了 40 次 ep.emit('topic_html', pair) 中的那 40 个 pair
//.map
topics = topics.map(function(topicPair){
//use cheerio
var topicUrl = topicPair[0];
var topicHtml = topicPair[1];
var $ = cheerio.load(topicHtml);
return ({
title: $('.topic_full_title').text().trim(),
href: topicUrl,
comment1: $('.reply_content').eq(0).text().trim()
});
});
//outcome
console.log('outcome:');
console.log(topics);
});
//第三步:肯定放出事宜音讯的
topicUrls.forEach(function (topicUrl) {
superagent.get(topicUrl)
.end(function (err, res) {
console.log('fetch ' + topicUrl + ' successful');
ep.emit('topic_html', [topicUrl, res.text]);
});
});
效果以下
猎取留言用户名和积分
在文章页面的源码找到批评的用户class名,classname为reply_author。console.log第一个元素 $(‘.reply_author’).get(0)能够看到,我们须要猎取东西都在这里头。
起首,我们先对一篇文章举行抓取,一次性把须要的都获得即可。
var userHref = url.resolve(tUrl, $('.reply_author').get(0).attribs.href);
console.log(userHref);
console.log($('.reply_author').get(0).children[0].data);
我们能够经由过程https://cnodejs.org/user/username
抓取积分信息
$('.reply_author').each(function (idx, element) {
var $element = $(element);
console.log($element.attr('href'));
});
在用户信息页面 $('.big').text().trim()
即为积分信息。
运用cheerio的函数.get(0)为猎取第一个元素。
var userHref = url.resolve(tUrl, $('.reply_author').get(0).attribs.href);
console.log(userHref);