1.urllib2.HTTPError: HTTP Error 403:Forbidden
需要在爬取时伪装浏览器头
headers= {‘User-Agent’:’Mozilla/5.0 (Windows; U; Windows NT 6.1; en-US; rv:1.9.1.6) Gecko/20091201 Firefox/3.5.6′}
加上这段后执行程序,又报了第二个错误。
2.must be string or buffer, not dict
查了资料,缺少参数rq_body
先定义rq_body = ”
html = urllib2.Request(‘http://blog.csdn.net/xingjiarong’,rq_body,headers)
再次执行,成功。