我正在编写一个scrapy脚本来搜索和搜索网站的结果.我需要从网站搜索项目并从搜索结果中解析每个网址.我从Scrapy的start_requests开始,我将传递搜索查询并重定向到另一个函数解析,该解析将从搜索结果中检索URL.最后我调用另一个函数parse_item来解析结果.我能够提取所有搜索结果url,但我无法解析结果(parse_item不起作用).这是代码:
# -*- coding: utf-8 -*-
from scrapy.http.request import Request
from scrapy.spider import BaseSpider
class xyzspider(BaseSpider):
name = 'dspider'
allowed_domains = ["www.example.com"]
mylist = ['Search item 1','Search item 2']
url = 'https://example.com/search?q='
def start_requests(self):
for i in self.mylist:
i = i.replace(' ','+')
starturl = self.url+ i
yield Request(starturl,self.parse)
def parse(self,response):
itemurl = response.xpath(".//section[contains(@class, 'search-results')]/a/@href").extract()
for j in itemurl:
print j
yield Request(j,self.parse_item)
def parse_item(self,response):
print "hello"
'''rating = response.xpath(".//ul(@class = 'ratings')/li[1]/span[1]/text()").extract()
print rating'''
有谁可以帮助我.谢谢.
最佳答案 我收到了Filtered offsite请求错误.我将允许的域名从allowed_domains = www.xyz.com更改为
xyz.com,它工作得很好.