自己在爬取网页时常遇到的一些错误

2023年7月4日 203次阅读来源: SaveTheWorld

1.urllib2.HTTPError: HTTP Error 403:Forbidden

需要在爬取时伪装浏览器头

headers= {‘User-Agent’:’Mozilla/5.0 (Windows; U; Windows NT 6.1; en-US; rv:1.9.1.6) Gecko/20091201 Firefox/3.5.6′}

加上这段后执行程序，又报了第二个错误。

2.must be string or buffer, not dict

查了资料，缺少参数rq_body

先定义rq_body = ”

html = urllib2.Request(‘http://blog.csdn.net/xingjiarong’,rq_body,headers)

再次执行，成功。

    原文作者：SaveTheWorld
    原文地址: https://www.jianshu.com/p/c579a2cda3fc
    本文转自网络文章，转载此文章仅为分享知识，如有侵权，请联系博主进行删除。