本日給人人分享的是node爬蟲,寫得不好的人人多照顧,指出
背景交卸,以下寫的demo都是參照《python3收集爬蟲開闢實戰》用node完成的,所以demo的詳細思緒什麼的,人人能夠去看書上的引見,感興趣的,能夠去相識一波。
[x] 3.4 貓眼影戲抓取
貓眼影戲抓取,沒什麼難點,非常簡樸的一個實例。唯一要注重的處所就是正則吧(固然也能夠用cheerio庫來完成更簡樸,重假如為了實踐下差別的體式格局)。因為python3有許多現成的要領,所以當用node去寫的時刻,可能要轉變一下,詳細的能夠看源碼
let re = /<dd>(?:\s.*?)*board-index.*?>(\d+)<\/i>(?:\s.*?)*data-src="(.*?)"(?:\s.*?)*name"><a.*?>(.*?)<\/a><\/p>\s*?<p class="star">\s*?(.*?)\s*?<\/p>(?:\s.*?)*releasetime">(.*?)<\/p>(?:\s.*?)*integer">(.*?)<\/i>.*?fraction">(.*?)<\/i>/g
- [x] 6.4 本日頭條Ajax街拍圖片抓取
// 重假如有一個疑問,下面這段代碼重假如推斷文件存不存在,假如不存在的話拋非常再寫入文件,然則總覺得這類處理體式格局有題目,願望能找到更合理的要領
try {
fs.accessSync(file_path)
console.warning('Already Downloaded', file_path)
} catch (error) {
response.data.pipe(fs.createWriteStream(file_path))
}
[x] 7.4 淘寶商品
這裏重要引見的就是
puppeteer是 Google Chrome 團隊官方的無界面(Headless)Chrome 東西, 經由過程puppeteer我們很輕易的模仿用戶的操縱[x] 8 圖片驗證碼辨認
這裏重要注重的就是node-tesseract庫和gm,因為之前一開始用的是tesseract.js庫,一向報錯能夠看下這兩個題目
issues1和
issues2,厥後改成node-tesseract就好了,我覺得也是因為牆的緣由吧或者是設置的題目
// 可能把途徑指向當地就好了,詳細的沒測試,背面再找找題目看
window.Tesseract = Tesseract.create({
workerPath: '/path/to/worker.js',
langPath: 'https://cdn.rawgit.com/naptha/tessdata/gh-pages/3.02/',
corePath: 'https://cdn.rawgit.com/naptha/tesseract.js-core/0.1.0/index.js',
})
背面還會更新其他的爬蟲demo,願望本文對你有協助github地點