《Python网络爬虫》1.4 Requests库方法详细介绍

By 一页编程

下面我们介绍一下requests库主要方法,并且对这些方法进行解析。
Requests库与HTTP协议的方法,功能是一一对应的,包括以下7个方法:

方法说明
requests.request()构造一个请求,支撑以下各方法的基础方法
requests.get()获取HTML网页的主要方法,对应HTTP协议的GET
requests.head()获取HTML网页头信息的方法,对应HTTP协议的HEAD
requests.post()向HTML网页提交POST请求的方法,对应HTTP协议的POST
requests.put()向HTML网页提交PUT请求的方法,对应HTTP协议的PUT
requests.patch向HTML网页提交局部修改,对应HTTP协议的PATCH
requests.delete()向HTML网页提交删除请求的方法,对应HTTP协议的DELETE

requests.request()方法

requests库的request方法是所有方法的基础方法,它有3个参数:

request(method, url, **kwargs)
  • method:通过request()实现的请求方式,它分别对应get、post、put等7种方法。
  • url:获取页面链接。
  • kwargs:控制访问参数,一共有13个。

请求方式

r = requests.request('GET', url, **kwargs)
r = requests.request('HEAD', url, **kwargs)
r = requests.request('POST', url, **kwargs)
r = requests.request('PUT', url, **kwargs)
r = requests.request('PATCH', url, **kwargs)
r = requests.request('DELETE', url, **kwargs)
r = requests.request('OPTIONS', url, **kwargs)

其中前6种大家看到这些已经非常清楚,它们就是HTTP协议所对应的请求功能,我们都已经介绍过了。而options事实上是向服务器获取一些服务器跟客户端能够打交道的参数,这里边并不与获取资源直接相关,因此,我们在平时使用中用的比较少。
在这7种方式中,我们除了直接使用request()方法之外,还可以使用requests库的对应方法。比如说,requests.get()requests.head()requests.post()来实现。

访问控制参数

URL我们大家都知道它是链接,我们不多说了,那么request()的13个访问控制的参数分别是什么呢?我们一一介绍一下。

  • params

params指能够增加到url中的参数,这个怎么理解呢?我们看一个例子:

>>> kv = {'key1': 'value1', 'key2': 'value2'}
>>> r = requests.request('GET', 'http://python123.io/ws', params = kv)
>>> print(r.url)
http://python123.io/ws?key1=value1&key2=value2
>>> 

我们发现,在我们给定的url中,它的后面多了一个问号,问号后面有key1=value1,&key2=value2。也就是说,通过这样一个参数,我们可以把一些键值对增加到url中,那么使得url再去访问时,不止访问的是这个资源,而同时代入了一些参数,那服务器呢?可以接受这些参数,并根据这些参数筛选部分资源返回回来。
后面,我们会有例子重点介绍这个参数的使用。

  • data

第二个要介绍的访问控制参数是data,它可以是字典、字节序列或文件对象。重点是作为向服务器提供或提交资源时使用。看下面的代码:

>>> kv = {'key1': 'value1', 'key2': 'value2'}
>>> r = requests.request('GET', 'http://python123.io/ws', data = kv)
>>> body = '主题内容'
>>> r = requests.request('GET', 'http://python123.io/ws', data = body)

使用data参数的时候,我们所提交的键值对,对并不放在url链接里,而是放在url链接对应位置的地方,作为数据来存储。我们当然也可以像data赋值一个字符串,那么这个字符串就会存到前面的url链接所对应的位置。

  • json

大家看到名字就能想到他是json格式的数据。json格式,在http、html相关的外部开发中用到的非常常见,也是http协议使用的最经常使用的数据格式,那么它也是作为内容部分可以向服务器提交,比如说我们用字典构造一个键值对,然后呢,我们可以把它复制给json参数,那么这个键值对就复制到服务器的json里面。

>>> kv = {'key1': 'value1', 'key2': 'value2'}
>>> r = requests.request('POST', 'http://python123.io/ws', json= kv)
  • headers

headers实际上是http头的相关语句,它对应了向某一个url访问时所发起的http的头字段,简单说,我们可以用这个字段来定制访问某一个url的http的协议头,举个例子:

>>> hd = {'user-agent': 'Chrome/10'}
>>> r = requests.request('POST', 'http://python123.io/ws', headers = hd)
>>> 

我们把user-agent变为Chrome/10,那么在访问某一个链接时,我们可以把这样的字段赋给headers,此时headers再去向服务器访问时服务器看到的user-agent字段就是Chrome/10。那Chrome/10是什么呢?他是指Chrome浏览器的第十个版本,也就是说我们可以模拟任何我们想模拟的浏览器向服务器发起访问,而这种模拟浏览器的方法就是在headers字段中来实现。
后面,我们有例子来去介绍这个字段的具体使用。

  • cookies 和 auth

cookies和auth都是requests库的高级功能。
cookies指的是从http协议中解析cookie, 它可以是字典,也可以是CookieJar形式。
auth字段是一个元组类型,它是支持http认证功能的。

  • files

顾名思义,它是向服务器传输文件时使用的字段。我们可以定义一个字典,用File,以对应的文件为键值对,用open的方式打开这个文件,并把这个文件与files做一个关联,同时对应到相关的url上。通过这样的方法,我们可以向某一个链接提交某一个文件,这个在特定应用时还是非常有用的。

>>> fs = {'file': open('data.txt', 'rb')}
>>> r = requests.request('POST', 'http://python123.io/ws', files= fs)
>>> 
  • timeout

Timeout设定的超时时间,以秒为单位。当我们发起一个get请求时,我们可以设一个timeout时间,如果在timeout时间内,我们的请求内容没有反馈回来,那么它将产生一个timeout的异常。

>>> r = requests.request('POST', 'http://python123.io/ws', timeout= 10)
>>> 
  • proxies

Proxies字段,他是一个字典类型,可以为我们爬取网页,设定相关的访问代理服务器。这里我们增加两个代理:

>>> pxs = {'http': 'http://user:pass@10.10.10.10:1234'
              'https': 'https://10.10.10.10:4321'
>>> r = requests.request('GET', 'http://www.baidu.com', proxies= pxs)
>>> 

第一个是http访问时使用的代理,在这代理中,我们可以增加用户名跟密码的设置。后面是一个https的代理服务器,这样我们在访问百度时的ip地址,就是代理服务器的ip地址。使用这个字段可以有效的隐藏用户爬取网页的源的ip地址信息,能够有效地防止对爬虫的逆追踪。

  • allow_redirects 和 stream

这两个字段都是开关字段。
allow_redirects表示允不允许对url进行重定向。
stream指对获取的内容是否进行立即下载,默认情况是立即下载。

  • verify 和 cert

verify是一个认证ssl证书的字段。
cert是保存本地ssl证书路径的字段。

其他方法

requests.get(url, params=None, **kwargs)
requests.head(url, **kwargs)
requests.post(url, data=None, json=None, **kwargs)
requests.put(url, data=None, **kwargs)
requests.patch(url, data=None, **kwargs)
requests.delete(url, **kwargs)

在使用这6个方法的时候,由于这些方法会常用到某一些访问控制参数,所以就把这样的参数作为一个显示定义的参数量放到了函数的设计里边,而那些不是特别常用的都放在了访问控制可选的参数字段里边。

    原文作者:一页编程
    原文地址: https://www.jianshu.com/p/eb9ba90afcea
    本文转自网络文章,转载此文章仅为分享知识,如有侵权,请联系博主进行删除。
点赞