今天搜了一个nodejs的爬虫. 尝试着爬了一下jd.com.
但是一直返回302,最终发现是User-Agent问题, node执行js时没有User-Agent.
var http = require('http');
var url = require('url');
var $ = require('jquery');
var options = {
headers: {'User-Agent': 'curl/7.43.0'},
host: 'search.jd.com',
path: '/Search?keyword=abc&enc=utf-8',
url: '/Search?keyword=%E9%93%B6%E9%B3%95%E9%B1%BC&enc=utf-8'
}
http.get(options,function(res){
var body = '';
res.on('data', function(d) {
body += d;
});
res.on('end',function(){
console.log(body);
});
})