（转）Python模块之requests

2023年3月24日 226次阅读来源: 莫莫33

一、HTTP协议

HTTP（Hyper Text Transfer Protocol）意为超文本传输协议，它提供了一种发布和接收HTML网页的方法，我们一般称客户端为用户代理程序（user agent），应答的服务器上存储着一些资源，比如HTML文件和图像，我们称这个应答服务器为源服务器。而HTTP就是一个客户端终端（用户）和服务器端（网站）请求和应答（其实简单看来就是浏览网页的过程）的标准。

二、请求方法

在HTTP协议中，定义了八种方法来操作指定的资源（下面只会用到GET,POST）：

OPTIONS,HEAD,GET,POST,PUT,DELETE,TRACE,CONNECT。

简单说明一下各个方法的功能：

OPTIONS：使服务器传回该资源所支持的所有HTTP请求方法，可以测试服务器功能是否正常运作。

HEAD：向服务器发出指定资源的请求，只不过服务器将不传回资源的本文部分。

GET：向指定的资源发出“显示”请求。

POST：向指定资源提交数据，请求服务器进行处理（例如提交表单或者上传文件）。

PUT：向指定的资源上传最新内容。

DELETE：请求服务器删除所标识的资源。

TRACE：显示服务器收到的请求，用于测试。

CONNECT：通常用于SSL加密服务器的链接。

（以上参考维基百科）

通常我们浏览网页时，其实就是一个GET方法，从服务器端加载网页进来。

所以GET是其中最常用的一种方法。而在我们平常使用（比如爬虫）时，几乎都要用到这个方法。

三、安装requests

>>>pip install requests

一、发送请求

首先导入requests库

>>>import requests

导入后，你就可以直接发出请求了：

>>>r=requests.get(‘https://www.zhihu.com/’)

这样一来，你就得到了一个Response对象r，这个对象里已经包含了你想要的网页信息。

遇到某些需要登录验证信息的网站，只用GET方法是得不到在浏览器上看到的网页的，这时你得附带headers和cookies：

>>>r=requests.get(‘https://www.zhihu.com/’,headers={‘key’:’value’},cookies={‘key’:’value’})

其中headers和cookies参数是以字典的方式存储的，它们的信息可以在浏览器里开发者工具中看到。一般headers用以伪装成浏览器，而cookies是你存储的表单密码cookie。这两者在请求网页内容中最常用，如果请求失败时，可以检查一下看看自己有没有将headers和cookies考虑进来。

二、传递参数进URLs

在使用该方法前你需要了解网址的参数，网址中一般在后面加上？号，而问号后面带的是一串参数，比如：

>>>paylod={‘key1′:’value1′,’key2’:[‘value2′,’value3’]}>>>r=requests.get(‘https://www.zhihu.com/get’,params=payload)>>>print(r)https://www.zhihu.com/get?key1=value1&key2=value2&key2=value3

这种带参数的网址，在一些有表格数据的网站非常常见。

三、响应内容

用上面获取的Response对象的.text方法，可以得到网页的内容：

>>>r.textu’………………..’

requests会自动为你编码，你可以用.encoding方法查看编码，或是更改编码格式：

>>>r.encoding’utf-8′>>>r.encoding=’ISO-8859-1′

除了.text方法外，还有其它响应内容的方法：

1.如果想获得二进制，可以用.content的方法：

>>>r.contentb’………………’

2.用.json()方法可以返回json内容：

>>>r.json()b'{‘xxx’:’xxx’}’

3.在某些情况下你可能需要得到原始套接字回应，此时你可以在原始的request请求中将stream参数设为True，然后再用.raw方法：

>>>r=requests.get(‘http://www.zhihu.com/get’,stream=True)>>>r.raw

四、返回状态码

在发送请求后，我们可以通过以下方法检查状态码：

>>>r.status_code200

requests还提供了一个简单的参考方式：

r.status_code==requests.codes.okTrue

如果我们发送了一个错误的请求，可以用.raise_for_status()来引出一个错误：

>>>r.status_code404>>>r.raise_for_status()Traceback(mostrecentcalllast):File”requests/models.py”,line832,inraise_for_statusraisehttp_errorrequests.exceptions.HTTPError:404ClientError

五、返回请求头

我们可以点取属性取得请求时的请求头（Headers）：

>>>r.headers{‘content-encoding’:’gzip’,’transfer-encoding’:’chunked’,’connection’:’close’,’server’:’nginx/1.0.4′,’x-runtime’:’148ms’,’etag’:'”e1ca502697e5c9317743dc078f67693f”‘,’content-type’:’application/json’}

所以我们可以直接访问我们想要的内容：

>>>r.headers[‘content-encoding’]’gzip’

同理，你也可以通过这种方式访问Cookies：

>>>r.cookies[‘example_cookie_name’]’example_cookie_value’

六、重定向和历史纪录

在了解该功能前，你需要了解重定向的内容，重定向指的是把你的网络请求重新定个方向，让它转移到其它位置。为什么要重定向呢？因为当你的网络结构发生变化、更换网址和改变扩展名（比如.php改成.html）时，如果不进行重定向，用户便会访问到一个错误的网址，从而发生错误，使网站损失用户。所以，在一些网站进行重大改版时，在进入网页时你常常会发现出现跳转的情况，其实就是重定向。

在requests中，可以用history方法来追踪重定向。同时可以在请求时选择开启或关闭重定向（除了HEAD请求外，默认都是开启。）

>>>r=requests.get(‘http://github.com’,allow_redirects=True)>>>r.history[]

七、超时设定

你可以传入一个时限来限定requests最大访问时间，当无响应时长超过这个时限时，就会发生错误：

>>r=requests.get(‘http://www.zhihu.com/’,timeout=0.1)Traceback(mostrecentcalllast):File””,line1,inrequests.exceptions.Timeout:HTTPConnectionPool(host=’github.com’,port=80):Requesttimedout.(timeout=0.1)

写在最后

本文翻译于官方文档（虽然写完才发现有中文版。。），其中内容经过自己的一些理解所写，对原有文档进行了适当删减，同时一些地方的知识做了点补充。

转自知乎作者：林骏翔

链接：https://zhuanlan.zhihu.com/p/21976757

来源：知乎

    原文作者：莫莫33
    原文地址: https://www.jianshu.com/p/c1ec71a8e8dd
    本文转自网络文章，转载此文章仅为分享知识，如有侵权，请联系博主进行删除。