importscrapy
classtmSpider(scrapy.Spider):
name =’tianmao’
defstart_requests(self):
# 全部url
urls = [‘https://xxxx.tmall.com/xxx’]
foruinurls:
yieldscrapy.Request(u,self.parse,headers=headers)
defparse(self, response):
result = response.text
print(‘start parse…’)
print(result)
以上是爬虫代码,在运行时出现页面被302跳转到登录页面,无法获取目标网站内容。
我的解决方法是,在Request方法里加入headers,同时在settings.py里禁用cookies:
# Disable cookies (enabled by default)
COOKIES_ENABLED =False
我的理解是,如果没有自定义cookies而 使用scrapy自带的cookies,会被网站识别为机器人,因此如果爬虫不需要使用cookies,那就先把它禁掉。