python – Scrapy Start_request解析

2023年4月4日 446次阅读

我正在编写一个scrapy脚本来搜索和搜索网站的结果.我需要从网站搜索项目并从搜索结果中解析每个网址.我从Scrapy的start_requests开始,我将传递搜索查询并重定向到另一个函数解析,该解析将从搜索结果中检索URL.最后我调用另一个函数parse_item来解析结果.我能够提取所有搜索结果url,但我无法解析结果(parse_item不起作用).这是代码：

# -*- coding: utf-8 -*-

from scrapy.http.request import Request
from scrapy.spider import BaseSpider

class xyzspider(BaseSpider):
    name = 'dspider'
    allowed_domains = ["www.example.com"]
    mylist = ['Search item 1','Search item 2']
    url = 'https://example.com/search?q='

    def start_requests(self):
        for i in self.mylist:
            i = i.replace(' ','+')
            starturl = self.url+ i

            yield Request(starturl,self.parse)

    def parse(self,response):
        itemurl =  response.xpath(".//section[contains(@class, 'search-results')]/a/@href").extract()
        for j in itemurl:
            print j
            yield Request(j,self.parse_item)

    def parse_item(self,response):
        print "hello"

        '''rating = response.xpath(".//ul(@class = 'ratings')/li[1]/span[1]/text()").extract()
        print rating'''

有谁可以帮助我.谢谢.

最佳答案我收到了Filtered offsite请求错误.我将允许的域名从allowed_domains = www.xyz.com更改为

xyz.com,它工作得很好.