刚"会爬"就想"飞"的虫子(基于 Scrapy)

大家好,我是一个”沾沾自喜”的虫子,刚刚学会写一点点代码,明白了”爬”的原理,就想要”飞”了,于是”摔”的很惨.不过,这也是成长的过程.也许当我回头看的时候,自己会笑喷.还是比较享受这个过程的.

《刚

Scrapy

Scrapy是一个为了爬取网站数据,提取结构性数据而编写的应用框架。 可以应用在包括数据挖掘,信息处理或存储历史数据等一系列的程序中。

爬取数据

首先我们来一起爬取一下豆瓣电影上的数据吧..come on,

这个是要爬取数据的地址

https://movie.douban.com/top250

新建一个工程

scrapy startproject  doubandianying

Item

item 模块个人理解为一种 model,说白了,就是把数据爬取下来之后放到这个容器中,之后可以用 pipelines 文存取到数据库中. (本文不涉及到) .

修改 items.py 文件

打开文件可以看到结构,而且有例子,很简单.把想要的数据在这里写好.写spider文件的时候会需要.

import scrapy

class DoubandianyingItem(scrapy.Item):

     # define the fields for your item here like:

     # name = scrapy.Field()

      title = scrapy.Field()

      link = scrapy.Field()

      star = scrapy.Field()

      quote = scrapy.Field()

      pass

这里是想取的数据:

《刚

Spider 文件

接下来就是写爬虫喽,话不多说直接上代码.

import scrapy

import sys

from doubandianying.items import DoubandianyingItem

reload(sys)

sys.setdefaultencoding(‘utf-8’)

class doubandianying(scrapy.Spider):

        name =’doubandianying’

        allowed_domains = [“douban.com”]

       start_urls = [“http://movie.douban.com/top250/”]

     def  parse(self,response):

         item = DoubandianyingItem()

         infos = response.xpath(‘//div[@class=”item”]’)

         for info in   infos:

                title = info.xpath(‘div[@class=”pic”]/a/img/@alt’).extract()

               link= info.xpath(‘div[@class=”pic”]/a/@href’).extract()

              star =              info.xpath(‘div[@class=”info”]/div[@class=”bd”]/div[@class=”star”]/span[@class=”rating_num”]/text()’).extract()

            quote = info.xpath(‘div[@class=”info”]/div[@class=”bd”]/p[@class=”quote”]/span/text()’).extract()

           item[‘title’]= title

          item[‘link’]=link

          item[‘star’]=star

          item[‘quote’]=quote

         yield  item

        next_page = response.xpath(‘//span[@class=”next”]/a/@href’)

         if next_page:

                   url = response.urljoin(next_page[0].extract())

                   yield scrapy.Request(url,self.parse)

一切都 OK 了,剩下的就是去爬虫文件所在的目录去执行

scrapy crawl doubandianying

之后如果想看的方便点,可以导出成.csv 格式或者 json 的形式.

scrapy crawl doubandianying -o items.json

如果还有什么地方有问题大家可以在评论里面说说….欢迎.

最后

想说一句其实有了框架,进行爬虫很简单,主要还是对于网页的分析,XPath 语法要看看.传送门,

如果看会了,不如试试抓一下豆瓣图书去.加油

    原文作者:一天清晨
    原文地址: https://www.jianshu.com/p/a06bbe50e47d
    本文转自网络文章,转载此文章仅为分享知识,如有侵权,请联系博主进行删除。
点赞