学习
# 继承 scrapy
start_urls
def parse(self,response)
scrapy runspider file.py -o file.csv
pip install scrapy // 安装
scrapy startproject demo // 创建项目
cd demo
scrapy genspider gdqy_spider gdqy.gov.cn// 创建 爬虫
iterms.py // 编写字段
piplines.py // 处理获取的 item 数据
# 编写代码,分析源代码,获取 xpath 或者 css path
demo : scrapy crawl gdqy_spider // 运行爬虫
问题记录:
- 运行爬虫出现 500 错误:
解决办法:设置 settings.py 文件 去掉 USER_AGENT 的注销 - response.xpath() 无法获取数据:
解决办法:删除 xpath 中出现的 tbody - 出现提示:list index out of range
错误原因,没有获取到数据,可能是url 错误或者是 xpath 错误,也有可能是需要登陆 - 无法获取或者下载到图片
错误原因:file_urls 字段的值类型必须为 list ,加上 [ ] 括号