在爬取网站信息的过程中,有些网站为了防止爬虫,可能会限制每个ip的访问速度或访问次数。对于限制访问速度的情况,我们可以通过time.sleep进行短暂休眠后再次爬取。对于限制ip访问次数的时候我们需要通过代理ip轮换去访…
分类:网络爬虫
爬虫养成记 - urllib2的HTTPCookieProcessor
很多网站的资源需要用户登录之后才能获取。我们一旦登录后再访问其他被保护的资源的时候,就不再需要再次输入账号、密码。那么网站是怎么办到的呢?一般来说,用户在登录之后,服务器端会为该用户创建一个Session。Session…
爬虫养成记 - urllib2的调试和错误处理
urllib2的timeout timeout参数用于设置超时。我们在爬取一些响应较慢的网站的时候,需要设置一个比较长的超时时间。 response = urllib2.urlopen(request, timeout=…
为编写网络爬虫程序安装Python3.5
1. 下载Python3.5.1安装包 1.1 进入python官网,点击menu->downloads,网址:Download Python 1.2 根据系统选择32位还是64位,这里下载的可执行exe为64位安…
Python网页信息采集:使用PhantomJS采集淘宝天猫商品内容
1,引言 最近一直在看Scrapy 爬虫框架,并尝试使用Scrapy框架写一个可以实现网页信息采集的简单的小程序。尝试过程中遇到了很多小问题,希望大家多多指教。 本文主要介绍如何使用Scrapy结合PhantomJS采集…