Scrapy导出Excel By Exporter

Scrapy导出Excel By Exporter

作者:黄成

日期:2018年03月24日10:40

在Scrapy中实现是一个能将数据以Excel格式导出的Exporter。

共有3个步骤:

①自定义导出exporters方法。

②将自定义方法添加至配置文件中。

③运行爬虫声明导出格式为自定义格式。

  1. 在项目中创建一个my_exporters.py(与settings.py同级目录),在其中实现ExcelItemExporter,代码如下:
# -*- coding: utf-8 -*-

from scrapy.exporters import BaseItemExporter
import xlwt


class ExcelItemExporter(BaseItemExporter):
    """
    导出为Excel
    在执行命令中指定输出格式为excel
    e.g. scrapy crawl -t excel -o books.xls
    """

    def __init__(self, file, **kwargs):
        self._configure(kwargs)
        self.file = file
        self.wbook = xlwt.Workbook(encoding='utf-8')
        self.wsheet = self.wbook.add_sheet('scrapy')
        self._headers_not_written = True
        self.fields_to_export = list()
        self.row = 0

    def finish_exporting(self):
        self.wbook.save(self.file)

    def export_item(self, item):
        if self._headers_not_written:
            self._headers_not_written = False
            self._write_headers_and_set_fields_to_export(item)

        fields = self._get_serialized_fields(item)
        for col, v in enumerate(x for _, x in fields):
            print(self.row, col, str(v))
            self.wsheet.write(self.row, col, str(v))
        self.row += 1

    def _write_headers_and_set_fields_to_export(self, item):
        if not self.fields_to_export:
            if isinstance(item, dict):
                self.fields_to_export = list(item.keys())
            else:
                self.fields_to_export = list(item.fields.keys())
        for column, v in enumerate(self.fields_to_export):
            self.wsheet.write(self.row, column, v)
        self.row += 1

解释上述代码如下:

  • 这里使用第三方库xlwt将数据写入Excel文件中。
  • 在构造器方法中创建Workbook对象和Worksheet对象,并初始化用来记录写入行坐标的self.row。
  • 在export_item方法中判断是否存在第一行字段声明,若不存在调用_write_headers_and_set_fields_to_export方法根据item的属性名写入第一行。
  • 在export_item方法中调用基类的_get_serialized_fields方法,获得item所有字段的迭代器,然后调用self.wsheet.write方法将各字段写入Excel表格。
  • finish_exporting方法在所有数据都被写入Excel表格后被调用,在该方法中调用self.wbook.save方法将Excel表格写入Excel文件。
  1. 完成ExcelItemExporter后,在配置文件settings.py中添加如下代码:
FEED_EXPORTERS={'excel':'example.my_exporters.ExcelItemExporter'}

说明:example是项目名称;my_exporters是文件名;ExcelItemExporter是自定义类名。

  1. 现在可以使用ExcelItemExporter导出数据了,以-t excel为参数重新运行爬虫:
$ scrapy crawl <spider_name> -t excel -o <file_name>.xls

图所示为爬取完成后在Excel文件中观察到的结果。

《Scrapy导出Excel By Exporter》 image.png

如上所示,我们成功地使用ExcelItemExporter将爬取到的数据存入了Excel文件中。

    原文作者:MR_ChanHwang
    原文地址: https://www.jianshu.com/p/a50b19b6258d
    本文转自网络文章,转载此文章仅为分享知识,如有侵权,请联系博主进行删除。
点赞