Scrapy学习笔记

2023年3月22日 303次阅读来源: v小飞侠v

学习

初步使用

# 继承 scrapy
start_urls
def parse(self,response)
scrapy runspider file.py -o file.csv

基本使用 scrapy

pip install scrapy // 安装
scrapy startproject demo // 创建项目
cd demo
scrapy genspider gdqy_spider gdqy.gov.cn// 创建 爬虫
iterms.py // 编写字段
piplines.py // 处理获取的 item 数据
# 编写代码，分析源代码，获取 xpath 或者 css path
demo : scrapy crawl gdqy_spider // 运行爬虫

问题记录：

运行爬虫出现 500 错误：
解决办法：设置 settings.py 文件去掉 USER_AGENT 的注销
response.xpath() 无法获取数据：
解决办法：删除 xpath 中出现的 tbody
出现提示：list index out of range
错误原因，没有获取到数据，可能是url 错误或者是 xpath 错误，也有可能是需要登陆
无法获取或者下载到图片
错误原因：file_urls 字段的值类型必须为 list ，加上 [ ] 括号

    原文作者：v小飞侠v
    原文地址: https://www.jianshu.com/p/c744c93d3d21
    本文转自网络文章，转载此文章仅为分享知识，如有侵权，请联系博主进行删除。