scrapy创建项目的方法
- 1.创建项目
scrapy startproject myproject [project_dir]
cd myproject
- 创建爬虫文件
scrapy genspider baidu.com www.baidu.com
project-only commands:
- 1.
scrapy crawl <spider>
运行spider的方法 - 2.
scrapy check [-l] <spider>
检查代码是否有错误 - 3.
scrapy list
返回项目里面所有spider的名称 - 4.
scrapy view <url>
帮助请求url,并进行下载并保存成文件,同时会用浏览器帮你打开,不过是file形式的 - 5.
scrapy shell [url]
类似于ipython,浏览器交互模式 - 6.
scrapy runspider <spider_file.py>
运行spider,指定文件名,而不是name, - 7.
scrapy version [-v]
-v 指定的话可以输出依赖库 - 8.
scrapy bench
进行测试的,比如爬行速度等
scrapy数据保存
- Json文件:
scrapy crawl name –t json –o o.json
- csv文件:
scrapy crawl name –t csv –o o.csv
- Xml文件
scrapy crawl name –t xml –o o.xml