scrapy 断点续传

2023年3月14日 319次阅读来源: 秦琴er

总之我们要想保证爬取数据的完整就要牺牲程序的效率。

有的人把所有爬取过的url列表保存到一个文件当中，然后再次启动的时候每次爬取要和文件当中的url列表对比，如果相同则不再爬取。

有的人在scrapy再次启动爬取的时候和数据库里面的数据做对比，如果相同则不存取。

还有一种办法呢就是利用Request中的优先级（priority）

    原文作者：秦琴er
    原文地址: https://www.jianshu.com/p/3811cdd8ec06
    本文转自网络文章，转载此文章仅为分享知识，如有侵权，请联系博主进行删除。