nodejs爬虫项目实战

这篇文章重要引见了NodeJS制造爬虫的全过程,包括项目竖立,目的网站剖析、运用superagent猎取源数据、运用cheerio剖析、运用eventproxy来并发抓取每一个主题的内容等方面,有须要的小伙伴参考下吧。
《nodejs爬虫项目实战》

一、 依靠

1. DOM操纵 cheerio

2. 要求插件 request

3. http库 superagent

4. 代办 eventproxy

二、竖立项目node-spider

1. 竖立一个Koa2项目

npm install -g koa-generator

2. 天生一个koa2的项目

koa2 -e node-spider -e示意运用ejs模板,详细参照koa天生器,一键天生koa和koa2项目

三、目的网站剖析

如图,这是CNode首页一部分div标签,我们就是经由过程这一系列的id、class来定位我们须要的信息。
《nodejs爬虫项目实战》

四、爬虫功用制造

1. superagent

是ajax API来运用的Http库,它的运用要领与jQuery差不多,我们经由过程它提议get要求,在回调函数中输出效果。

  var koa = require('koa');
  var router = require('koa-router')
  var url = require('url'); //剖析操纵url
  var superagent = require('superagent'); //这三个外部依靠不要遗忘npm install
  var cheerio = require('cheerio');
  var eventproxy = require('eventproxy');
  var targetUrl = 'https://cnodejs.org/';
  superagent.get(targetUrl)
    .end(function (err, res) {
        console.log(res);
    });

它的res效果为一个包括目的url信息的对象,网站内容重要在其text(string)里。

《nodejs爬虫项目实战》

2. 运用cheerio剖析

cheerio充任服务器端的jQuery功用,我们先运用它的.load()来载入HTML,再经由过程CSS selector来挑选元素。

  var $ = cheerio.load(res.text);
  //经由过程CSS selector来挑选数据
  $('#topic_list .topic_title').each(function (idx, element) {
      console.log(element);
  });

其效果为一个个对象,挪用 .each(function(index, element))函数来遍历每一个对象,返回的是HTML DOM Elements。

《nodejs爬虫项目实战》

输出 console.log($element.attr('title'));的效果为
广州2014年12月06日 NodeParty 之 UC 场之类的题目
输出 console.log($element.attr('href'));的效果为
/topic/545c395becbcb78265856eb2之类的url
再用NodeJS1的url.resolve()函数来补全完全的url。

superagent.get(tUrl)
    .end(function (err, res) {
        if (err) {
            return console.error(err);
        }
        var topicUrls = [];
        var $ = cheerio.load(res.text);
        // 猎取首页一切的链接
        $('#topic_list .topic_title').each(function (idx, element) {
            var $element = $(element);
            var href = url.resolve(tUrl, $element.attr('href'));
            console.log(href);
            //topicUrls.push(href);
        });
    });

3.运用eventproxy来并发抓取

教程上展现了深度嵌套(串行)要领和计数器要领的例子,eventproxy就是运用事宜(并行)要领来处置惩罚这个题目。当一切的抓取完成后,eventproxy接收到事宜音讯自动帮你挪用处置惩罚函数。

  //第一步:获得一个 eventproxy 的实例
  var ep = new eventproxy();
  //第二步:定义监听事宜的回调函数。
  //after要领为反复监听
  //params: eventname(String) 事宜名,times(Number) 监听次数, callback 回调函数
  ep.after('topic_html', topicUrls.length, function(topics){
      // topics 是个数组,包括了 40 次 ep.emit('topic_html', pair) 中的那 40 个 pair
      //.map
      topics = topics.map(function(topicPair){
          //use cheerio
          var topicUrl = topicPair[0];
          var topicHtml = topicPair[1];
          var $ = cheerio.load(topicHtml);
          return ({
              title: $('.topic_full_title').text().trim(),
              href: topicUrl,
              comment1: $('.reply_content').eq(0).text().trim()
          });
      });
      //outcome
      console.log('outcome:');
      console.log(topics);
  });
  //第三步:肯定放出事宜音讯的
  topicUrls.forEach(function (topicUrl) {
      superagent.get(topicUrl)
          .end(function (err, res) {
              console.log('fetch ' + topicUrl + ' successful');
              ep.emit('topic_html', [topicUrl, res.text]);
          });
  });

效果以下

《nodejs爬虫项目实战》

猎取留言用户名和积分

《nodejs爬虫项目实战》

在文章页面的源码找到批评的用户class名,classname为reply_author。console.log第一个元素 $(‘.reply_author’).get(0)能够看到,我们须要猎取东西都在这里头。

《nodejs爬虫项目实战》

起首,我们先对一篇文章举行抓取,一次性把须要的都获得即可。

  var userHref = url.resolve(tUrl, $('.reply_author').get(0).attribs.href);
  console.log(userHref);
  console.log($('.reply_author').get(0).children[0].data);

我们能够经由过程https://cnodejs.org/user/username抓取积分信息

$('.reply_author').each(function (idx, element) {
var $element = $(element);
console.log($element.attr('href'));
});

在用户信息页面 $('.big').text().trim()即为积分信息。
运用cheerio的函数.get(0)为猎取第一个元素。

var userHref = url.resolve(tUrl, $('.reply_author').get(0).attribs.href);
console.log(userHref);
    原文作者:奋进的小莫
    原文地址: https://segmentfault.com/a/1190000005742172
    本文转自网络文章,转载此文章仅为分享知识,如有侵权,请联系博主进行删除。
点赞