node收集爬蟲實例了解下?

本日給人人分享的是node爬蟲,寫得不好的人人多照顧,指出

背景交卸,以下寫的demo都是參照《python3收集爬蟲開闢實戰》用node完成的,所以demo的詳細思緒什麼的,人人能夠去看書上的引見,感興趣的,能夠去相識一波。

  • [x] 3.4 貓眼影戲抓取

    貓眼影戲抓取,沒什麼難點,非常簡樸的一個實例。唯一要注重的處所就是正則吧(固然也能夠用cheerio庫來完成更簡樸,重假如為了實踐下差別的體式格局)。因為python3有許多現成的要領,所以當用node去寫的時刻,可能要轉變一下,詳細的能夠看源碼

let re = /<dd>(?:\s.*?)*board-index.*?>(\d+)<\/i>(?:\s.*?)*data-src="(.*?)"(?:\s.*?)*name"><a.*?>(.*?)<\/a><\/p>\s*?<p class="star">\s*?(.*?)\s*?<\/p>(?:\s.*?)*releasetime">(.*?)<\/p>(?:\s.*?)*integer">(.*?)<\/i>.*?fraction">(.*?)<\/i>/g
// 重假如有一個疑問,下面這段代碼重假如推斷文件存不存在,假如不存在的話拋非常再寫入文件,然則總覺得這類處理體式格局有題目,願望能找到更合理的要領
    try {
      fs.accessSync(file_path)
      console.warning('Already Downloaded', file_path)
    } catch (error) {
      response.data.pipe(fs.createWriteStream(file_path))
    }
  • [x] 7.4 淘寶商品

    這裏重要引見的就是
    puppeteer是 Google Chrome 團隊官方的無界面(Headless)Chrome 東西, 經由過程puppeteer我們很輕易的模仿用戶的操縱

  • [x] 8 圖片驗證碼辨認

    這裏重要注重的就是node-tesseract庫和gm,因為之前一開始用的是tesseract.js庫,一向報錯能夠看下這兩個題目
    issues1
    issues2,厥後改成node-tesseract就好了,我覺得也是因為牆的緣由吧或者是設置的題目

// 可能把途徑指向當地就好了,詳細的沒測試,背面再找找題目看
window.Tesseract = Tesseract.create({
    workerPath: '/path/to/worker.js',
    langPath: 'https://cdn.rawgit.com/naptha/tessdata/gh-pages/3.02/',
    corePath: 'https://cdn.rawgit.com/naptha/tesseract.js-core/0.1.0/index.js',
})

背面還會更新其他的爬蟲demo,願望本文對你有協助github地點

    原文作者:2ming
    原文地址: https://segmentfault.com/a/1190000015210088
    本文转自网络文章,转载此文章仅为分享知识,如有侵权,请联系博主进行删除。
点赞