爬虫---scrapy框架

scrapy

scrapy是一个爬虫框架,是用python语言编写的,如果想更加深入的了解,可以尝试着看他的源码,非常出名,非常强悍,多进程、多线程、队列等,底层都有使用
我们只需要按照人家提供的接口去实现即可

安装: pip install scrapy

学习框架:

引擎、spiders、调度器、下载器、管道

工作原理:

《爬虫---scrapy框架》 上网原理.png

官方文档:

http://scrapy-chs.readthedocs.io/zh_CN/0.24/intro/tutorial.html

简单使用:

(1)创建项目

scrapy startproject firstblood

(2)认识项目结构
firstblood
firstblood 项目文件存放地方
pycache 缓存文件
spiders 存放爬虫文件的地方
pycache 缓存文件
init.py 包的标记
lala.py 爬虫文件(核心代码)(×)
init.py 包的标记
items.py 定义数据结构的地方(×)
middlewares.py 了解(下载中间件)
pipelines.py 管道文件,处理数据(×)
settings.py 项目的配置文件(×)
scrapy.cfg 不用了解

(3)开启项目,生成爬虫文件

cd firstblood
scrapy genspider 爬虫名字 爬取域名
爬虫文件里面属性的含义
爬虫的名字
启动爬虫的时候需要使用

name = ‘qiubai’

允许的域名,是一个列表,对要爬取的url进行限制,限制域名

妹子图网站,src和网站的域名不是同一个,如果不注意,向图片发送的请求就都过滤掉了

allowed_domains = [‘www.qiushibaike.com’, ‘www.baidu.com’]

起始url,是一个列表,一般只写一个

start_urls = [‘http://www.qiushibaike.com/’]

这是重写的函数,也是一个回调函数,parse函数处理起始url的响应
response就是过来的响应对象

def parse(self, response):

(4)将项目跑起来,认识response对象

cd firstblood/firstblood/spiders
scrapy crawl qiubai
【注】修改配置文件,robots协议,定制请求头
response.text 获取字符串格式内容
response.body 获取字节格式内容
response.url 获取请求url
response.headers 获取响应头部
response.status 获取响应状态码
response.xpath()

(5)抓取糗百内容

response.xpath() 和以前的xpath不太一样,最后要通过extract进行提取才可以
直接输出json格式 scrapy crawl qiubai -o qiubai.json
scrapy crawl qiubai -o qiubai.xml
scrapy crawl qiubai -o qiubai.csv

【注】你导出的时候有空行,网上搜一下即可解决
【注】乱码,你使用office打开,gbk,utf8,右键另存为,选字符集,在打开即可

scrapy shell

是什麽?scrapy的调试工具,通过xpath来提取数据的时候,如果直接写到代码中,在调试的时候不太方便,我们可以通过scrapy shell先进行调试,调试完之后,将xpath路径拷贝过去即可
依赖一个库:ipython
pip install ipython

ipython是一个更加智能的python交互环境

scrapy shell url

  • 如果进ipython环境失败,那就需要到工程目录下进行调试
  • 进来之后response即可使用
    response.text 字符串格式内容
    response.body 字节格式内容
    response.xpath()

谷歌浏览器自动生成xpath,右键,copy==》copy xpath
/html/body/div[3]/div[4]/div[1]/div/div[2]/ul/li[1]/div[1]/div/a/img
/html/body/div[3]/div[4]/div[1]/div/div[2]/ul/li[1]/div[1]/a
ret[0].extract() === ret.extract()[0] == ret.extract_first()
【注】如果xpath写错了,前两个会直接报错,extract_first会返回None

response.css(),
就是以前学习的select方法,里面写选择器
body > div.page > div.page-body.clearfix > div.main > div > div.b > ul > li:nth-child(1) > div.cont-list-head > div > a > img
selector对象:
scrapy里面自己封装的对象,这种对象提取的时候就得extract()

获取img标签的data-src属性,当然最后还得extract()
ret = response.css(‘.cont-item > .cont-list-head img::attr(data-src)’)
获取文本内容,当然最后都的extract一下
ret = response.css(‘.cont-item > .cont-list-head > a::text’)
item对象
这种对象的用法和字典的用法一模一样,而且这种对象可以快速的转化为字典
p = Person()
p[‘name’] = xxx
p[‘age’] = xxx
d = dict(p)

2、yield item和请求

yield scrapy.Request(url=url, callback=self.parse)

3、下载图片

http://699pic.com/people.html
Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/67.0.3396.99 Safari/537.36

4、日志信息和等级

CRITICAL 严重错误
ERROR 一般错误
WARNING 警告
INFO 一般信息
DEBUG 调试信息 默认级别
发现bug需要3s钟,解决bug需要3个小时,debug却要一辈子
甲虫 debug

# 在配置文件中设置错误级别,只显示ERROR以上的错误
LOG_LEVEL = 'ERROR'
# 想看到所有的debug信息,但是又不想显示到屏幕中,可以设置写入到文件中
LOG_FILE = 'log.txt'

5、发送post请求

scrapy也可以发送post请求,启动就发送post请求怎么做?
将start_urls给注释掉
重写start_requests方法即可
yield scrapy.FormRequest(url=url, formdata=data, callback=self.parse)

6、请求传参

yield scrapy.Request(url=detail_url, callback=self.parse_detail, meta={'item': item})

1、crawlspider

是什麽?CrawlSpider, 类名。在scrapy里面,有好多爬虫类,最基本的是Spider类,基类,还有一个常用的一个爬虫类,就是CrawlSpider,该类继承自Spider类,所以功能要比Spider要多,多了一个很重要的功能,叫做链接提取的功能

链接提取器类,通过类创建对象,对象的方法就能提取链接

from scrapy.linkextractors import LinkExtractor
LinkExtractor(
allow=xxx, # 正则表达式
restrict_xpaths=xxx, # xpath路径,符合这个路径的所有a链接提取到
restrict_css=xxx, # 选择器,符合选择器的所有a链接提取到
)
在scrapy shell中演示规则提取
(1)正则提取
lk = LinkExtractor(allow=r’/8hr/page/\d+/’)
lk.extract_links(response)
(2)xpath提取
如下两种方式都可以
lk = LinkExtractor(restrict_xpaths=’//ul[@class=”pagination”]/li/a’)
lk = LinkExtractor(restrict_xpaths=’//ul[@class=”pagination”]/li’)
(3)css提取
lk = LinkExtractor(restrict_css=’.pagination > li > a’)
lk = LinkExtractor(restrict_css=’.pagination > li’)
代码中使用
犯贱网
图形修改

2、存储到mysql、mongodb

导入一个读取配置文件的函数
from scrapy.utils.project import get_project_settings
通过这个函数,将配置文件全部读进来,读进来是一个字典
settings = get_project_settings()

custom_settings = {
    "ITEM_PIPELINES": {
        'movieproject.pipelines.MyMongoDbPipeline': 302,
    }
}

web方向 框架学习
爬虫方向 高于web 涉及数据抓取,过滤分析,数据可视化,性能要求,需求改变,立即修改满足需求,反爬 代理ip就可以搞定,反爬,课堂上的例子 案例
数据方向 高于前两个

3、redis配置

让其他的电脑能够链接你的redis,并且配置和修改值
修改两个地方
第55行 #bind 127.0.0.1 注释掉
第75行 protected-mode no yes修改为no
4、存储到redis、分布式部署
分布式?为了提高爬取的效率,让多台电脑一起爬取,比如一共100url,三台电脑一起爬取,一个电脑33个
scrapy写的工程,都不能实现分布式,没有这个功能
要想实现分布式,使用一套组件 scrapy-redis 不是官方的,安装就能使用\

pip install scrapy-redis
部署
windows redis服务端 安装redis服务器

客户端,运行代码的电脑
linux1
linux2
windows1
windows2

演示:
linux : redis服务端
我的windows:客户端1
你的linux:客户端2
你的windows:客户端3
xxxx
查看官方例子
三个样本文件
dmoz.py 普通的crawlspider模板
mycrawler_redis.py 如果你的爬虫文件继承自CrawlSpider,又想实现分布式,请参考这个模板
myspider_redis.py redisspider模板,如果你的爬虫继承自Spider,又想实现分布式,请参考这个模本

分布式模板:
redis-key : 就是以前的 start_urls 这个列表
init方法: 这个就是以前的 allowed_domains 这个列表
【注】init方法不能使用,要定义动态列表,还得用以前的写法

配置文件说明
见代码
启动工程
scrapy runspider xxx.py

lpush fenspider:start_urls http://699pic.com/people.html

    原文作者:riverstation
    原文地址: https://www.jianshu.com/p/00fe21f22093
    本文转自网络文章,转载此文章仅为分享知识,如有侵权,请联系博主进行删除。
点赞