scrapy学习之路3(爬取的数据保存本地文件或MYSQL)

2019年8月15日 204次阅读来源: lilied

保存item中的信息到本地文件

1.自定义以json格式保存到本地文件

piplines.py
《scrapy学习之路3(爬取的数据保存本地文件或MYSQL)》
再到settings.py中添加使用

2.scrapy自带方式以json格式保存到本地文件

piplines.py
《scrapy学习之路3(爬取的数据保存本地文件或MYSQL)》
再到settings.py中添加使用

保存item中的信息到MySQL(同步)

设计表结构
《scrapy学习之路3(爬取的数据保存本地文件或MYSQL)》

注意:日期是str类型，要转化成date类型
《scrapy学习之路3(爬取的数据保存本地文件或MYSQL)》

piplines.py
《scrapy学习之路3(爬取的数据保存本地文件或MYSQL)》

补充：settings.py

《scrapy学习之路3(爬取的数据保存本地文件或MYSQL)》

保存item中的信息到MySQL(异步twisted)

settings.py

MYSQL_HOST = '127.0.0.1'
MYSQL_DBNAME = 'spider'
MYSQL_USER = 'root'
MYSQL_PASSWORD = '123456'

piplines.py

《scrapy学习之路3(爬取的数据保存本地文件或MYSQL)》

去重写法

    def do_insert(self, cursor, item):
        my_sql = """
            insert into youwu(url, url_object_id, title, big_image_url) VALUES (%s, %s, %s, %s) on duplicate key update title=values(title), big_image_url=value(big_image_url)
        """
        cursor.execute(my_sql, (item['url'], item['url_object_id'], item['title'], item['big_image_url']))

    原文作者：lilied
    原文地址: https://segmentfault.com/a/1190000012791044
    本文转自网络文章，转载此文章仅为分享知识，如有侵权，请联系博主进行删除。