Scrapy爬取所有股票的最新信息

1. Scrapy框架

如下图所示,Scrapy构架由五大组件(SPIDERS,ENGINE,SCHEDULER,DOWNLOADER,ITEM PIPELINES),两个中间件(SPIDERS到ENGINE,ENGINE到DOWNLOADER),三条数据流组成(①②,③④⑤⑥,⑦⑧),我们在使用时一般只需要通过genspider命令创建spider并编写处理逻辑,然后在pipelines里面对数据进行处理存储即可。

《Scrapy爬取所有股票的最新信息》 Scrapy框架

2. 爬取股票信息

GitHub地址:https://github.com/Acamy/BaiduStocks

  1. 创建工程和spider文件
scrapy startproject BaiduStocks
cd BaiduStocks
scrapy genspider stocks baidu.com
  1. 编写spider

    《Scrapy爬取所有股票的最新信息》 stocks.py

  2. 编写Pipelines

    《Scrapy爬取所有股票的最新信息》 pipelines.py

4.配置settings.py

《Scrapy爬取所有股票的最新信息》 settings.py

  1. 运行spider
scrapy crawl stocks

《Scrapy爬取所有股票的最新信息》 运行效果

    原文作者:Acamy丶
    原文地址: https://www.jianshu.com/p/85ad15cbc3d0
    本文转自网络文章,转载此文章仅为分享知识,如有侵权,请联系博主进行删除。
点赞