python – 重定向后的Scrapy回调

2019年8月4日 173次阅读

我有一个非常基本的scrapy蜘蛛,它从文件中抓取url然后下载它们.唯一的问题是,其中一些被重定向到同一域内的略微修改的URL.我想使用response.meta在我的回调函数中获取它们,并且它适用于普通的URL,但是然后url被重定向回调似乎没有被调用.我该如何解决？

这是我的代码.

from scrapy.contrib.spiders import CrawlSpider
from scrapy import log
from scrapy import Request
class DmozSpider(CrawlSpider):
    name = "dmoz"
    handle_httpstatus_list = [302]
    allowed_domains = ["http://www.exmaple.net/"]) 
    f = open("C:\\python27\\1a.csv",'r')
    url = 'http://www.exmaple.net/Query?indx='
    start_urls = [url+row for row in f.readlines()]
    def parse(self, response):
            print response.meta.get('redirect_urls', [response.url])
            print response.status 
            print (response.headers.get('Location'))

我也尝试过这样的事情：

def parse(self, response):
         return Request(response.url, meta={'dont_redirect': True, 'handle_httpstatus_list':     [302]}, callback=self.parse_my_url)
def parse_my_url(self, response):
        print response.status 
        print (response.headers.get('Location'))

它也不起作用.

最佳答案默认情况下,scrapy请求被重定向,但如果您不想重定向,则可以这样做,使用start_requests方法并在请求元数据中添加标记.

    def start_requests(self):
        requests =[(Request(self.url+u, meta={'handle_httpstatus_list': [302],
                               'dont_redirect': True},         
                    callback=self.parse)) for u in self.start_urls]
        return requests