scrapy中item的处理技巧
Field 的类型
Scrapy中只有一种类型,就是 scrapy.Field()
,类似于字典。
url 的拼接
meta
meta 在 Request 中作为参数,是一个字典。放在yield Request()
中。
yield Request(url=parse.urljoin(response.url, post_url), meta={"front_image_url":image_url}, callback=self.parse_detail)
这样在回调函数callback=self.parse_detail
中进行调用,调用的方法是
front_image_url = response.meta.get("front_image_url","") # 文章封面图
urljoin() 可以拼接两个网址,详见《urljoin()拼接两个网址》。
item的使用
1》定义 item
class JobBoleArticleItem(scrapy.Item):
title = scrapy.Field()
create_date = scrapy.Field()
url = scrapy.Field()
url_object_id = scrapy.Field()
front_image_url = scrapy.Field()
front_image_path = scrapy.Field()
praise_nums = scrapy.Field()
comment_nums = scrapy.Field()
fav_nums = scrapy.Field()
tags = scrapy.Field()
content = scrapy.Field()
2》item获取数据
item在spider中实例化,并获取数据。
from ArticleSpider.items import JobBoleArticleItem
class JobboleSpider(scrapy.Spider):
#...
def parse(self, response):
#...
next_url = response.css(".next.page-numbers::attr(href) ").extract_first()
if next_url:
yield Request(url=next_url, callback=parse)
def parse_detail(self, response):
# 引入 item 并实例化
article_item = JobBoleArticleItem()
# ...
article_item["title"] = title
article_item["url"] = response.url
article_item["create_date"] = create_date
article_item["front_image_url"] = front_image_url
article_item["praise_nums"] = praise_nums
article_item["comment_nums"] = comment_nums
article_item["fav_nums"] = fav_nums
article_item["tags"] = tags
article_item["content"] = content
yield article_item
最后 yield到pipelines中处理。
3》pipelines 处理 item
首先打开settings中的pipelines注释,只要把注释取消掉即可。
ITEM_PIPELINES = {
'ArticleSpider.pipelines.ArticlespiderPipeline': 300,
}
在pipelines中debug。在第二行def..
与第三行return item
打断点。
class ArticlespiderPipeline(object):
def process_item(self, item, spider):
return item
debug运行到断点处,看item的变量_values
,可以看到数据结果。
这时,pipelines可以:drop item 或者 存储item。
4》下载图片
配置下载pipelines
在settings中,加入下载图片的pipeline。
在源码中可以找到:/Users/macroot/virtualenvs/article_spider/lib/python3.5/site-packages/scrapy/pipelines/images.py
。
在pycharm中的site-packages中可以找到。
settings中设定目录
在Article_spider目录(与settings文件在同一个目录)中,设定item中哪个是图片下载地址(IMAGES_URLS_FIELD
),文件夹的相对路径,文件下载存储目录(IMAGES_STORE
)。
import os
#...
IMAGES_URLS_FIELD = "front_image_url"
project_dir = os.path.abspath(os.path.dirname(__file__))
IMAGES_STORE = os.path.join(project_dir, "images")
两个注意点,
pip install -i https://pypi.douban.com/simple pillow
-
article_item["front_image_url"] = [front_image_url]
在spider中获取的数据,以list形式提交。
最后运行main.py
文件,就可以开始下载。
下载路径绑定:定制自己的pipelines
存储的路径也需要与item绑定。定制ImagesPipeline
from scrapy.pipelines.images import ImagesPipeline
#...
class ArticleImagePipeline(ImagesPipeline):
ImagesPipeline中可以过滤下载图片的大小,放在settings中,要求下载的图片最小高度和最小宽度都是100.
IMAGES_MIN_HEIGHT = 100
IMAGES_MIN_WIDTH = 100
在scrapy.pipelines.images中,搜索IMAGES_MIN_HEIGHT
和 IMAGES_MIN_WIDTH
,可以看到有定义。
self.min_height = settings.getint(
resolve('IMAGES_MIN_HEIGHT'), self.MIN_HEIGHT
)
self.thumbs = settings.get(
resolve('IMAGES_THUMBS'), self.THUMBS
)
(这里只是演示,不需要设置)
scrapy.pipelines.images中,这个函数接收的是list或迭代器,如果是一个值就会出错。
获取url之后,返回一个 Request,并交给下载器。
def get_media_requests(self, item, info):
return [Request(x) for x in item.get(self.images_urls_field, [])]
可以用此函数获取存储地址。重载该函数。
def item_completed(self, results, item, info):
if isinstance(item, dict) or self.images_result_field in item.fields:
item[self.images_result_field] = [x for ok, x in results if ok]
return item
路径实际是存放在 result里面。通过 result 获取文件实际的存储路径。
首先,不知道 result 的结构,下面写pass打断点。
class ArticleImagePipeline(ImagesPipeline):
def item_completed(self, results, item, info):
pass
首先,要把images/full
文件删除掉/full/
文件夹,如果不删,就不会下载,scrapy会查询。
然后,把settings中的图片下载pipeline改为自己定制的。
list中嵌套turple
results
是一个list,每一个元素是一个turple。0这个turple里面第一个值 0=True
,表示是否成功。第二个值是一个字典,里面有一个键path
。path
的值就是文件路径。
results 是一个 turple。对于for ok表示是否成功,value in results。
因为results = (True, {dict}),所以Python自动识别字典。
class ArticleImagePipeline(ImagesPipeline):
def item_completed(self, results, item, info):
for ok, value in results:
image_file_path = value["path"]
这里可以参看《list中嵌套turple》
最后要把item return 回去,因为还有其他pipelines要处理。
为了核实是否能够保存图片的路径,在下面pipeline的第三行打断点
class ArticlespiderPipeline(object):
def process_item(self, item, spider):
return item
可以查看其中value。
md5处理url
参考《hashlib.md5 处理 url》。
from ArticleSpider.utils.common import get_md
#...
article_item["url_object_id"] = get_md(response.url)