爬虫---scrapy框架

2019年6月11日 335次阅读来源: riverstation

scrapy

scrapy是一个爬虫框架，是用python语言编写的，如果想更加深入的了解，可以尝试着看他的源码，非常出名，非常强悍，多进程、多线程、队列等，底层都有使用
我们只需要按照人家提供的接口去实现即可

安装： pip install scrapy

学习框架：

引擎、spiders、调度器、下载器、管道

工作原理：

《爬虫---scrapy框架》上网原理.png

官方文档：

http://scrapy-chs.readthedocs.io/zh_CN/0.24/intro/tutorial.html

简单使用：

（1）创建项目

scrapy startproject firstblood

（2）认识项目结构
firstblood
firstblood 项目文件存放地方
pycache 缓存文件
spiders 存放爬虫文件的地方
pycache 缓存文件
init.py 包的标记
lala.py 爬虫文件（核心代码）（×）
init.py 包的标记
items.py 定义数据结构的地方（×）
middlewares.py 了解（下载中间件）
pipelines.py 管道文件，处理数据（×）
settings.py 项目的配置文件（×）
scrapy.cfg 不用了解

（3）开启项目，生成爬虫文件

cd firstblood
scrapy genspider 爬虫名字爬取域名
爬虫文件里面属性的含义
爬虫的名字
启动爬虫的时候需要使用

name = ‘qiubai’

允许的域名，是一个列表，对要爬取的url进行限制，限制域名

妹子图网站，src和网站的域名不是同一个，如果不注意，向图片发送的请求就都过滤掉了

allowed_domains = [‘www.qiushibaike.com’, ‘www.baidu.com’]

起始url，是一个列表，一般只写一个

start_urls = [‘http://www.qiushibaike.com/’]

这是重写的函数，也是一个回调函数，parse函数处理起始url的响应
response就是过来的响应对象

def parse(self, response):

（4）将项目跑起来，认识response对象

cd firstblood/firstblood/spiders
scrapy crawl qiubai
【注】修改配置文件，robots协议，定制请求头
response.text 获取字符串格式内容
response.body 获取字节格式内容
response.url 获取请求url
response.headers 获取响应头部
response.status 获取响应状态码
response.xpath()

（5）抓取糗百内容

response.xpath() 和以前的xpath不太一样，最后要通过extract进行提取才可以
直接输出json格式 scrapy crawl qiubai -o qiubai.json
scrapy crawl qiubai -o qiubai.xml
scrapy crawl qiubai -o qiubai.csv

【注】你导出的时候有空行，网上搜一下即可解决
【注】乱码，你使用office打开，gbk，utf8，右键另存为，选字符集，在打开即可

scrapy shell

是什麽？scrapy的调试工具，通过xpath来提取数据的时候，如果直接写到代码中，在调试的时候不太方便，我们可以通过scrapy shell先进行调试，调试完之后，将xpath路径拷贝过去即可
依赖一个库：ipython
pip install ipython

ipython是一个更加智能的python交互环境

scrapy shell url

如果进ipython环境失败，那就需要到工程目录下进行调试
进来之后response即可使用
response.text 字符串格式内容
response.body 字节格式内容
response.xpath()

谷歌浏览器自动生成xpath，右键，copy==》copy xpath
/html/body/div[3]/div[4]/div[1]/div/div[2]/ul/li[1]/div[1]/div/a/img
/html/body/div[3]/div[4]/div[1]/div/div[2]/ul/li[1]/div[1]/a
ret[0].extract() === ret.extract()[0] == ret.extract_first()
【注】如果xpath写错了，前两个会直接报错，extract_first会返回None

response.css(),
就是以前学习的select方法，里面写选择器
body > div.page > div.page-body.clearfix > div.main > div > div.b > ul > li:nth-child(1) > div.cont-list-head > div > a > img
selector对象：
scrapy里面自己封装的对象，这种对象提取的时候就得extract()

获取img标签的data-src属性，当然最后还得extract()
ret = response.css(‘.cont-item > .cont-list-head img::attr(data-src)’)
获取文本内容，当然最后都的extract一下
ret = response.css(‘.cont-item > .cont-list-head > a::text’)
item对象
这种对象的用法和字典的用法一模一样，而且这种对象可以快速的转化为字典
p = Person()
p[‘name’] = xxx
p[‘age’] = xxx
d = dict(p)

2、yield item和请求

yield scrapy.Request(url=url, callback=self.parse)

3、下载图片

http://699pic.com/people.html
Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/67.0.3396.99 Safari/537.36

4、日志信息和等级

CRITICAL 严重错误
ERROR 一般错误
WARNING 警告
INFO 一般信息
DEBUG 调试信息默认级别
发现bug需要3s钟，解决bug需要3个小时，debug却要一辈子
甲虫 debug

# 在配置文件中设置错误级别，只显示ERROR以上的错误
LOG_LEVEL = 'ERROR'
# 想看到所有的debug信息，但是又不想显示到屏幕中，可以设置写入到文件中
LOG_FILE = 'log.txt'

5、发送post请求

scrapy也可以发送post请求，启动就发送post请求怎么做？
将start_urls给注释掉
重写start_requests方法即可
yield scrapy.FormRequest(url=url, formdata=data, callback=self.parse)

6、请求传参

yield scrapy.Request(url=detail_url, callback=self.parse_detail, meta={'item': item})

1、crawlspider

是什麽？CrawlSpider, 类名。在scrapy里面，有好多爬虫类，最基本的是Spider类，基类，还有一个常用的一个爬虫类，就是CrawlSpider，该类继承自Spider类，所以功能要比Spider要多，多了一个很重要的功能，叫做链接提取的功能

链接提取器类，通过类创建对象，对象的方法就能提取链接

from scrapy.linkextractors import LinkExtractor
LinkExtractor(
allow=xxx, # 正则表达式
restrict_xpaths=xxx, # xpath路径，符合这个路径的所有a链接提取到
restrict_css=xxx, # 选择器，符合选择器的所有a链接提取到
)
在scrapy shell中演示规则提取
（1）正则提取
lk = LinkExtractor(allow=r’/8hr/page/\d+/’)
lk.extract_links(response)
（2）xpath提取
如下两种方式都可以
lk = LinkExtractor(restrict_xpaths=’//ul[@class=”pagination”]/li/a’)
lk = LinkExtractor(restrict_xpaths=’//ul[@class=”pagination”]/li’)
（3）css提取
lk = LinkExtractor(restrict_css=’.pagination > li > a’)
lk = LinkExtractor(restrict_css=’.pagination > li’)
代码中使用
犯贱网
图形修改

2、存储到mysql、mongodb

导入一个读取配置文件的函数
from scrapy.utils.project import get_project_settings
通过这个函数，将配置文件全部读进来，读进来是一个字典
settings = get_project_settings()

custom_settings = {
    "ITEM_PIPELINES": {
        'movieproject.pipelines.MyMongoDbPipeline': 302,
    }
}

web方向框架学习
爬虫方向高于web 涉及数据抓取，过滤分析，数据可视化，性能要求，需求改变，立即修改满足需求，反爬代理ip就可以搞定，反爬，课堂上的例子案例
数据方向高于前两个

3、redis配置

让其他的电脑能够链接你的redis，并且配置和修改值
修改两个地方
第55行 #bind 127.0.0.1 注释掉
第75行 protected-mode no yes修改为no
4、存储到redis、分布式部署
分布式？为了提高爬取的效率，让多台电脑一起爬取，比如一共100url，三台电脑一起爬取，一个电脑33个
scrapy写的工程，都不能实现分布式，没有这个功能
要想实现分布式，使用一套组件 scrapy-redis 不是官方的，安装就能使用\

pip install scrapy-redis
部署
windows redis服务端安装redis服务器

客户端，运行代码的电脑
linux1
linux2
windows1
windows2

演示：
linux ： redis服务端
我的windows：客户端1
你的linux：客户端2
你的windows：客户端3
xxxx
查看官方例子
三个样本文件
dmoz.py 普通的crawlspider模板
mycrawler_redis.py 如果你的爬虫文件继承自CrawlSpider，又想实现分布式，请参考这个模板
myspider_redis.py redisspider模板，如果你的爬虫继承自Spider，又想实现分布式，请参考这个模本

分布式模板：
redis-key : 就是以前的 start_urls 这个列表
init方法：这个就是以前的 allowed_domains 这个列表
【注】init方法不能使用，要定义动态列表，还得用以前的写法

配置文件说明
见代码
启动工程
scrapy runspider xxx.py

lpush fenspider:start_urls http://699pic.com/people.html

    原文作者：riverstation
    原文地址: https://www.jianshu.com/p/00fe21f22093
    本文转自网络文章，转载此文章仅为分享知识，如有侵权，请联系博主进行删除。