刚"会爬"就想"飞"的虫子(基于 Scrapy)

2019年6月11日 246次阅读来源: 一天清晨

大家好,我是一个”沾沾自喜”的虫子,刚刚学会写一点点代码,明白了”爬”的原理,就想要”飞”了,于是”摔”的很惨.不过,这也是成长的过程.也许当我回头看的时候,自己会笑喷.还是比较享受这个过程的.

Scrapy

Scrapy是一个为了爬取网站数据，提取结构性数据而编写的应用框架。可以应用在包括数据挖掘，信息处理或存储历史数据等一系列的程序中。

爬取数据

首先我们来一起爬取一下豆瓣电影上的数据吧..come on,

这个是要爬取数据的地址

https://movie.douban.com/top250

新建一个工程

scrapy startproject doubandianying

Item

item 模块个人理解为一种 model,说白了,就是把数据爬取下来之后放到这个容器中,之后可以用 pipelines 文存取到数据库中. (本文不涉及到) .

修改 items.py 文件

打开文件可以看到结构,而且有例子,很简单.把想要的数据在这里写好.写spider文件的时候会需要.

import scrapy
class DoubandianyingItem(scrapy.Item):
# define the fields for your item here like:
# name = scrapy.Field()
title = scrapy.Field()
link = scrapy.Field()
star = scrapy.Field()
quote = scrapy.Field()
pass

这里是想取的数据:

Spider 文件

接下来就是写爬虫喽,话不多说直接上代码.

import scrapy
import sys
from doubandianying.items import DoubandianyingItem
reload(sys)
sys.setdefaultencoding(‘utf-8’)
class doubandianying(scrapy.Spider):
name =’doubandianying’
allowed_domains = [“douban.com”]
start_urls = [“http://movie.douban.com/top250/”]
def parse(self,response):
item = DoubandianyingItem()
infos = response.xpath(‘//div[@class=”item”]’)
for info in infos:
title = info.xpath(‘div[@class=”pic”]/a/img/@alt’).extract()
link= info.xpath(‘div[@class=”pic”]/a/@href’).extract()
star = info.xpath(‘div[@class=”info”]/div[@class=”bd”]/div[@class=”star”]/span[@class=”rating_num”]/text()’).extract()
quote = info.xpath(‘div[@class=”info”]/div[@class=”bd”]/p[@class=”quote”]/span/text()’).extract()
item[‘title’]= title
item[‘link’]=link
item[‘star’]=star
item[‘quote’]=quote
yield item
next_page = response.xpath(‘//span[@class=”next”]/a/@href’)
if next_page:
url = response.urljoin(next_page[0].extract())
yield scrapy.Request(url,self.parse)

一切都 OK 了,剩下的就是去爬虫文件所在的目录去执行

scrapy crawl doubandianying

之后如果想看的方便点,可以导出成.csv 格式或者 json 的形式.

scrapy crawl doubandianying -o items.json

如果还有什么地方有问题大家可以在评论里面说说….欢迎.

最后

想说一句其实有了框架,进行爬虫很简单,主要还是对于网页的分析,XPath 语法要看看.传送门,

如果看会了,不如试试抓一下豆瓣图书去.加油

    原文作者：一天清晨
    原文地址: https://www.jianshu.com/p/a06bbe50e47d
    本文转自网络文章，转载此文章仅为分享知识，如有侵权，请联系博主进行删除。