Scrapy学习笔记

学习

  • 初步使用
# 继承 scrapy
start_urls
def parse(self,response)
scrapy runspider file.py -o file.csv
  • 基本使用 scrapy
pip install scrapy // 安装
scrapy startproject demo // 创建项目
cd demo
scrapy genspider gdqy_spider gdqy.gov.cn// 创建 爬虫
iterms.py // 编写字段
piplines.py // 处理获取的 item 数据
# 编写代码,分析源代码,获取 xpath 或者 css path
demo : scrapy crawl gdqy_spider // 运行爬虫

问题记录:

  • 运行爬虫出现 500 错误:
    解决办法:设置 settings.py 文件 去掉 USER_AGENT 的注销
  • response.xpath() 无法获取数据:
    解决办法:删除 xpath 中出现的 tbody
  • 出现提示:list index out of range
    错误原因,没有获取到数据,可能是url 错误或者是 xpath 错误,也有可能是需要登陆
  • 无法获取或者下载到图片
    错误原因:file_urls 字段的值类型必须为 list ,加上 [ ] 括号
    原文作者:v小飞侠v
    原文地址: https://www.jianshu.com/p/c744c93d3d21
    本文转自网络文章,转载此文章仅为分享知识,如有侵权,请联系博主进行删除。
点赞