Scrapy自动爬取商品数据爬虫

2019年6月11日 238次阅读来源: 巧不巧克力

创建爬虫项目

首先确保在Python环境下安装好Scrapy。具体过程可以参考我之前的文章
Python环境下Scrapy爬虫框架安装
进入windows的cmd或mac终端在某文件目录(这里为craw文件夹)下创建爬虫项目bookpjt,并进入该项目文件夹
scrapy startproject bookpjt
cd bookpjt

《Scrapy自动爬取商品数据爬虫》

项目修改

这里我们选择爬取当当网python书籍商品的书名，价格，链接，评论数等数据。
进入项目文件目录下，找到并修改items.py文件，未修改前该文件如下：

# -*- coding: utf-8 -*-

# Define here the models for your scraped items
#
# See documentation in:
# http://doc.scrapy.org/en/latest/topics/items.html

import scrapy


class BookpjtItem(scrapy.Item):
    # define the fields for your item here like:
    # name = scrapy.Field()
    pass

修改类BookpjtItem如下：

class BookpjtItem(scrapy.Item):
    # define the fields for your item here like:
    # name = scrapy.Field()
#定义好name用来存储商品名
    name=scrapy.Field()
#定义好price用来存储商品价格
    price=scrapy.Field()
#定义好link用来存储商品链接
    link=scrapy.Field()
#定义好comnum用来存储商品评论数
    comnum=scrapy.Field()

修改pipelines.py文件，我们要将爬取到的数据存储在.json文件中，注意修改输出的.json文件路径为你自己电脑的路径。

# -*- coding: utf-8 -*-
import codecs
import json

# Define your item pipelines here
#
# Don't forget to add your pipeline to the ITEM_PIPELINES setting
# See: http://doc.scrapy.org/en/latest/topics/item-pipeline.html


class AutopjtPipeline(object):
    def __init__(self):
#此时存储到的文件是getdata.json,注意这里将路径修改为你自己要保存文件的路径！
        self.file = codecs.open("D:/python/.../getdata.json", "wb", encoding="utf-8")
    def process_item(self, item, spider):
#每一页中包含多个商品信息，所以可以通过循环，每一次处理一个商品
#其中len(item["name"])为当前页中商品的总数，依次遍历
        for j in range(0,len(item["name"])):
#将当前页的第j个商品的名称赋值给变量name
            name=item["name"][j]
            price=item["price"][j]
            comnum=item["comnum"][j]
            link=item["link"][j]
#将当前页下第j个商品的name、price、comnum、link等信息处理一下
#重新组合成一个字典
            books={"name":name,"price":price,"comnum":comnum,"link":link}
            #将组合后的当前页中第j个商品的数据写入json文件
            i=json.dumps(dict(books), ensure_ascii=False)
            line = i + '\n'
            self.file.write(line)
#返回item
        return item
    def close_spider(self,spider):
        self.file.close()

接下来修改setting.py文件，首先开启pipelines,取消这三行的注释即可。

# Configure item pipelines
# See http://scrapy.readthedocs.org/en/latest/topics/item-pipeline.html
ITEM_PIPELINES = {
    'bookpjt.pipelines.BookpjtPipeline': 300,
}

因为一些网站可能会有反爬虫机制，会屏蔽你的Cookie，这里作Cookie反屏蔽处理

# Disable cookies (enabled by default)
COOKIES_ENABLED = False

有时爬虫会因为未遵守robots.txt规则而不能运行，这里将robots.txt规则设为False，当然保证你的爬取行为合理合法。

# Obey robots.txt rules
ROBOTSTXT_OBEY = False

以上修改均可以在setting.py文件中。

创建爬虫文件

回到cmd或者终端，在该项目目录下以basic爬虫模板创建爬虫文件

scrapy genspider -t basic myspd dangdang.com

《Scrapy自动爬取商品数据爬虫》

在当当网中搜索python，分析当当网python书籍商品网址，可发现index后即为商品页数，可以多翻几页试试，第一页也许会和后面的页网址不一样，但是后面页网址的结构也可以打开第一页。

http://search.dangdang.com/?key=python&act=input&show=big&page_index=1#J_tab
http://search.dangdang.com/?key=python&act=input&show=big&page_index=2#J_tab
······

分析网页源代码，提取书名，价格，链接，评论数的XPath表达式，如”//a[@class=’pic’]/@title”为class属性为pic的a标签中的title属性对应的值。
编写myspd.py文件

# -*- coding: utf-8 -*-
import scrapy
from bookpjt.items import BookpjtItem
from scrapy.http import Request


class MyspdSpider(scrapy.Spider):
    name = "myspd"
    allowed_domains = ["dangdang.com"]
    start_urls = ['http://search.dangdang.com/?key=python&act=input&show=big&page_index=1#J_tab']

    def parse(self, response):
        item=BookpjtItem()
#通过各Xpath表达式分别提取商品的名称、价格、链接、评论数等信息
        item["name"]=response.xpath("//a[@class='pic']/@title").extract()
        item["price"]=response.xpath("//span[@class='price_n']/text()").extract()
        item["link"]=response.xpath("//a[@class='pic']/@href").extract()
        item["comnum"]=response.xpath("//a[@name='itemlist-review']/text()").extract()
#提取完后返回item
        yield item
#接下来很关键，通过循环自动爬取20页的数据
        for i in range(1,21):
#通过上面总结的网址格式构造要爬取的网址
            url="http://search.dangdang.com/?key=python&act=input&show=big&page_index="+str(i)+"#J_tab"
#通过yield返回Request，并指定要爬取的网址和回调函数
#实现自动爬取
            yield Request(url, callback=self.parse)

调试运行爬虫

返回项目目录下，在cmd或终端调试运行爬虫

scrapy crawl myspd --nolog

《Scrapy自动爬取商品数据爬虫》

在你之前保存的目录下查看getdata.json文件,可以看到很快爬虫便爬取了近1000多本书的数据信息。若没有文件或者文件内容为空，校对以上步骤看看哪里出错了。

《Scrapy自动爬取商品数据爬虫》结果输出

本文是快速成功实现了一个爬虫，同理，可以对其他网站或者其他商品通过Scrapy爬虫爬取你所需的数据信息。做法是分析网址源码，改动一下数据结构和正则表达式，具体内容可以百度搜索研究学习XPath表达式部分。

获取到数据后就可以进一步的进行数据分析或可视化，玩起这份自己获取到的数据啦
^_。具体内容以后玩到也会分享展示出来的。

项目代码已上传至我的
github|ChocoYvan，可以fork下来参考。

欢迎参观我的
博客|巧不巧克力,一起交流学习哈O(∩_∩)O

    原文作者：巧不巧克力
    原文地址: https://www.jianshu.com/p/ac4bcaa59544
    本文转自网络文章，转载此文章仅为分享知识，如有侵权，请联系博主进行删除。