scrapy中item的处理技巧

scrapy中item的处理技巧

Field 的类型

Scrapy中只有一种类型,就是 scrapy.Field(),类似于字典。

url 的拼接

meta

meta 在 Request 中作为参数,是一个字典。放在yield Request()中。

yield Request(url=parse.urljoin(response.url, post_url), meta={"front_image_url":image_url}, callback=self.parse_detail)

这样在回调函数callback=self.parse_detail中进行调用,调用的方法是

front_image_url = response.meta.get("front_image_url","") # 文章封面图

urljoin() 可以拼接两个网址,详见《urljoin()拼接两个网址》。

item的使用

1》定义 item

class JobBoleArticleItem(scrapy.Item):
    title = scrapy.Field()
    create_date = scrapy.Field()
    url = scrapy.Field()
    url_object_id = scrapy.Field()
    front_image_url = scrapy.Field()
    front_image_path = scrapy.Field()
    praise_nums = scrapy.Field()
    comment_nums = scrapy.Field()
    fav_nums = scrapy.Field()
    tags = scrapy.Field()
    content = scrapy.Field()

2》item获取数据

item在spider中实例化,并获取数据。

from ArticleSpider.items import JobBoleArticleItem

class JobboleSpider(scrapy.Spider):
    #...

    def parse(self, response):
        #...
        next_url = response.css(".next.page-numbers::attr(href) ").extract_first()
        if next_url:
            yield Request(url=next_url, callback=parse)

    def parse_detail(self, response):
        # 引入 item 并实例化
        article_item = JobBoleArticleItem()
        # ...
        
        article_item["title"] = title
        article_item["url"] = response.url
        article_item["create_date"] = create_date
        article_item["front_image_url"] = front_image_url
        article_item["praise_nums"] = praise_nums
        article_item["comment_nums"] = comment_nums
        article_item["fav_nums"] = fav_nums
        article_item["tags"] = tags
        article_item["content"] = content

        yield article_item

最后 yield到pipelines中处理。

3》pipelines 处理 item

首先打开settings中的pipelines注释,只要把注释取消掉即可。

ITEM_PIPELINES = {
   'ArticleSpider.pipelines.ArticlespiderPipeline': 300,
}

在pipelines中debug。在第二行def..与第三行return item打断点。

class ArticlespiderPipeline(object):
    def process_item(self, item, spider):
        return item

debug运行到断点处,看item的变量_values,可以看到数据结果。

这时,pipelines可以:drop item 或者 存储item。

4》下载图片

配置下载pipelines

在settings中,加入下载图片的pipeline。

在源码中可以找到:/Users/macroot/virtualenvs/article_spider/lib/python3.5/site-packages/scrapy/pipelines/images.py

在pycharm中的site-packages中可以找到。

settings中设定目录

在Article_spider目录(与settings文件在同一个目录)中,设定item中哪个是图片下载地址(IMAGES_URLS_FIELD),文件夹的相对路径,文件下载存储目录(IMAGES_STORE)。

import os
#...
IMAGES_URLS_FIELD = "front_image_url"
project_dir = os.path.abspath(os.path.dirname(__file__))
IMAGES_STORE = os.path.join(project_dir, "images")

两个注意点,

  • pip install -i https://pypi.douban.com/simple pillow
  • article_item["front_image_url"] = [front_image_url] 在spider中获取的数据,以list形式提交。

最后运行main.py文件,就可以开始下载。

下载路径绑定:定制自己的pipelines

存储的路径也需要与item绑定。定制ImagesPipeline

from scrapy.pipelines.images import ImagesPipeline
#...
class ArticleImagePipeline(ImagesPipeline):

ImagesPipeline中可以过滤下载图片的大小,放在settings中,要求下载的图片最小高度和最小宽度都是100.

IMAGES_MIN_HEIGHT = 100
IMAGES_MIN_WIDTH = 100

在scrapy.pipelines.images中,搜索IMAGES_MIN_HEIGHTIMAGES_MIN_WIDTH,可以看到有定义。

self.min_height = settings.getint(
            resolve('IMAGES_MIN_HEIGHT'), self.MIN_HEIGHT
        )
        self.thumbs = settings.get(
            resolve('IMAGES_THUMBS'), self.THUMBS
        )

(这里只是演示,不需要设置)

scrapy.pipelines.images中,这个函数接收的是list或迭代器,如果是一个值就会出错。

获取url之后,返回一个 Request,并交给下载器。

    def get_media_requests(self, item, info):
        return [Request(x) for x in item.get(self.images_urls_field, [])]

可以用此函数获取存储地址。重载该函数。

    def item_completed(self, results, item, info):
        if isinstance(item, dict) or self.images_result_field in item.fields:
            item[self.images_result_field] = [x for ok, x in results if ok]
        return item

路径实际是存放在 result里面。通过 result 获取文件实际的存储路径。

首先,不知道 result 的结构,下面写pass打断点。

class ArticleImagePipeline(ImagesPipeline):
    def item_completed(self, results, item, info):
        pass

首先,要把images/full文件删除掉/full/文件夹,如果不删,就不会下载,scrapy会查询。

然后,把settings中的图片下载pipeline改为自己定制的。

list中嵌套turple

results是一个list,每一个元素是一个turple。0这个turple里面第一个值 0=True,表示是否成功。第二个值是一个字典,里面有一个键pathpath的值就是文件路径。

results 是一个 turple。对于for ok表示是否成功,value in results。

因为results = (True, {dict}),所以Python自动识别字典。

class ArticleImagePipeline(ImagesPipeline):
    def item_completed(self, results, item, info):
        for ok, value in results:
            image_file_path = value["path"]

这里可以参看《list中嵌套turple》

最后要把item return 回去,因为还有其他pipelines要处理。

为了核实是否能够保存图片的路径,在下面pipeline的第三行打断点

class ArticlespiderPipeline(object):
    def process_item(self, item, spider):
        return item

可以查看其中value。

md5处理url

参考《hashlib.md5 处理 url》。

from ArticleSpider.utils.common import get_md
#...
article_item["url_object_id"] = get_md(response.url)
    原文作者:Tim_Lee
    原文地址: https://www.jianshu.com/p/3e86987066ba
    本文转自网络文章,转载此文章仅为分享知识,如有侵权,请联系博主进行删除。
点赞