(转)Python模块之requests

一、HTTP协议

HTTP(Hyper Text Transfer Protocol)意为超文本传输协议,它提供了一种发布和接收HTML网页的方法,我们一般称客户端为用户代理程序(user agent),应答的服务器上存储着一些资源,比如HTML文件和图像,我们称这个应答服务器为源服务器。而HTTP就是一个客户端终端(用户)和服务器端(网站)请求和应答(其实简单看来就是浏览网页的过程)的标准。

二、请求方法

在HTTP协议中,定义了八种方法来操作指定的资源(下面只会用到GET,POST):

OPTIONS,HEAD,GET,POST,PUT,DELETE,TRACE,CONNECT。

简单说明一下各个方法的功能:

OPTIONS:使服务器传回该资源所支持的所有HTTP请求方法,可以测试服务器功能是否正常运作。

HEAD:向服务器发出指定资源的请求,只不过服务器将不传回资源的本文部分。

GET:向指定的资源发出“显示”请求。

POST:向指定资源提交数据,请求服务器进行处理(例如提交表单或者上传文件)。

PUT:向指定的资源上传最新内容。

DELETE:请求服务器删除所标识的资源。

TRACE:显示服务器收到的请求,用于测试。

CONNECT:通常用于SSL加密服务器的链接。

(以上参考维基百科)

通常我们浏览网页时,其实就是一个GET方法,从服务器端加载网页进来。

所以GET是其中最常用的一种方法。而在我们平常使用(比如爬虫)时,几乎都要用到这个方法。

三、安装requests

>>>pip install requests

一、发送请求

首先导入requests库

>>>import requests

导入后,你就可以直接发出请求了:

>>>r=requests.get(‘https://www.zhihu.com/’)

这样一来,你就得到了一个Response对象r,这个对象里已经包含了你想要的网页信息。

遇到某些需要登录验证信息的网站,只用GET方法是得不到在浏览器上看到的网页的,这时你得附带headers和cookies:

>>>r=requests.get(‘https://www.zhihu.com/’,headers={‘key’:’value’},cookies={‘key’:’value’})

其中headers和cookies参数是以字典的方式存储的,它们的信息可以在浏览器里开发者工具中看到。一般headers用以伪装成浏览器,而cookies是你存储的表单密码cookie。这两者在请求网页内容中最常用,如果请求失败时,可以检查一下看看自己有没有将headers和cookies考虑进来。

二、传递参数进URLs

在使用该方法前你需要了解网址的参数,网址中一般在后面加上?号,而问号后面带的是一串参数,比如:

>>>paylod={‘key1′:’value1′,’key2’:[‘value2′,’value3’]}>>>r=requests.get(‘https://www.zhihu.com/get’,params=payload)>>>print(r)https://www.zhihu.com/get?key1=value1&key2=value2&key2=value3

这种带参数的网址,在一些有表格数据的网站非常常见。

三、响应内容

用上面获取的Response对象的.text方法,可以得到网页的内容:

>>>r.textu’………………..’

requests会自动为你编码,你可以用.encoding方法查看编码,或是更改编码格式:

>>>r.encoding’utf-8′>>>r.encoding=’ISO-8859-1′

除了.text方法外,还有其它响应内容的方法:

1.如果想获得二进制,可以用.content的方法:

>>>r.contentb’………………’

2.用.json()方法可以返回json内容:

>>>r.json()b'{‘xxx’:’xxx’}’

3.在某些情况下你可能需要得到原始套接字回应,此时你可以在原始的request请求中将stream参数设为True,然后再用.raw方法:

>>>r=requests.get(‘http://www.zhihu.com/get’,stream=True)>>>r.raw

四、返回状态码

在发送请求后,我们可以通过以下方法检查状态码:

>>>r.status_code200

requests还提供了一个简单的参考方式:

r.status_code==requests.codes.okTrue

如果我们发送了一个错误的请求,可以用.raise_for_status()来引出一个错误:

>>>r.status_code404>>>r.raise_for_status()Traceback(mostrecentcalllast):File”requests/models.py”,line832,inraise_for_statusraisehttp_errorrequests.exceptions.HTTPError:404ClientError

五、返回请求头

我们可以点取属性取得请求时的请求头(Headers):

>>>r.headers{‘content-encoding’:’gzip’,’transfer-encoding’:’chunked’,’connection’:’close’,’server’:’nginx/1.0.4′,’x-runtime’:’148ms’,’etag’:'”e1ca502697e5c9317743dc078f67693f”‘,’content-type’:’application/json’}

所以我们可以直接访问我们想要的内容:

>>>r.headers[‘content-encoding’]’gzip’

同理,你也可以通过这种方式访问Cookies:

>>>r.cookies[‘example_cookie_name’]’example_cookie_value’

六、重定向和历史纪录

在了解该功能前,你需要了解重定向的内容,重定向指的是把你的网络请求重新定个方向,让它转移到其它位置。为什么要重定向呢?因为当你的网络结构发生变化、更换网址和改变扩展名(比如.php改成.html)时,如果不进行重定向,用户便会访问到一个错误的网址,从而发生错误,使网站损失用户。所以,在一些网站进行重大改版时,在进入网页时你常常会发现出现跳转的情况,其实就是重定向。

在requests中,可以用history方法来追踪重定向。同时可以在请求时选择开启或关闭重定向(除了HEAD请求外,默认都是开启。)

>>>r=requests.get(‘http://github.com’,allow_redirects=True)>>>r.history[]

七、超时设定

你可以传入一个时限来限定requests最大访问时间,当无响应时长超过这个时限时,就会发生错误:

>>r=requests.get(‘http://www.zhihu.com/’,timeout=0.1)Traceback(mostrecentcalllast):File””,line1,inrequests.exceptions.Timeout:HTTPConnectionPool(host=’github.com’,port=80):Requesttimedout.(timeout=0.1)

写在最后

本文翻译于官方文档(虽然写完才发现有中文版。。),其中内容经过自己的一些理解所写,对原有文档进行了适当删减,同时一些地方的知识做了点补充。

转自知乎作者:林骏翔

链接:https://zhuanlan.zhihu.com/p/21976757

来源:知乎

    原文作者:莫莫33
    原文地址: https://www.jianshu.com/p/c1ec71a8e8dd
    本文转自网络文章,转载此文章仅为分享知识,如有侵权,请联系博主进行删除。
点赞