一、HTTP协议
HTTP(Hyper Text Transfer Protocol)意为超文本传输协议,它提供了一种发布和接收HTML网页的方法,我们一般称客户端为用户代理程序(user agent),应答的服务器上存储着一些资源,比如HTML文件和图像,我们称这个应答服务器为源服务器。而HTTP就是一个客户端终端(用户)和服务器端(网站)请求和应答(其实简单看来就是浏览网页的过程)的标准。
二、请求方法
在HTTP协议中,定义了八种方法来操作指定的资源(下面只会用到GET,POST):
OPTIONS,HEAD,GET,POST,PUT,DELETE,TRACE,CONNECT。
简单说明一下各个方法的功能:
OPTIONS:使服务器传回该资源所支持的所有HTTP请求方法,可以测试服务器功能是否正常运作。
HEAD:向服务器发出指定资源的请求,只不过服务器将不传回资源的本文部分。
GET:向指定的资源发出“显示”请求。
POST:向指定资源提交数据,请求服务器进行处理(例如提交表单或者上传文件)。
PUT:向指定的资源上传最新内容。
DELETE:请求服务器删除所标识的资源。
TRACE:显示服务器收到的请求,用于测试。
CONNECT:通常用于SSL加密服务器的链接。
(以上参考维基百科)
通常我们浏览网页时,其实就是一个GET方法,从服务器端加载网页进来。
所以GET是其中最常用的一种方法。而在我们平常使用(比如爬虫)时,几乎都要用到这个方法。
三、安装requests
>>>pip install requests
一、发送请求
首先导入requests库
>>>import requests
导入后,你就可以直接发出请求了:
>>>r=requests.get(‘https://www.zhihu.com/’)
这样一来,你就得到了一个Response对象r,这个对象里已经包含了你想要的网页信息。
遇到某些需要登录验证信息的网站,只用GET方法是得不到在浏览器上看到的网页的,这时你得附带headers和cookies:
>>>r=requests.get(‘https://www.zhihu.com/’,headers={‘key’:’value’},cookies={‘key’:’value’})
其中headers和cookies参数是以字典的方式存储的,它们的信息可以在浏览器里开发者工具中看到。一般headers用以伪装成浏览器,而cookies是你存储的表单密码cookie。这两者在请求网页内容中最常用,如果请求失败时,可以检查一下看看自己有没有将headers和cookies考虑进来。
二、传递参数进URLs
在使用该方法前你需要了解网址的参数,网址中一般在后面加上?号,而问号后面带的是一串参数,比如:
>>>paylod={‘key1′:’value1′,’key2’:[‘value2′,’value3’]}>>>r=requests.get(‘https://www.zhihu.com/get’,params=payload)>>>print(r)https://www.zhihu.com/get?key1=value1&key2=value2&key2=value3
这种带参数的网址,在一些有表格数据的网站非常常见。
三、响应内容
用上面获取的Response对象的.text方法,可以得到网页的内容:
>>>r.textu’………………..’
requests会自动为你编码,你可以用.encoding方法查看编码,或是更改编码格式:
>>>r.encoding’utf-8′>>>r.encoding=’ISO-8859-1′
除了.text方法外,还有其它响应内容的方法:
1.如果想获得二进制,可以用.content的方法:
>>>r.contentb’………………’
2.用.json()方法可以返回json内容:
>>>r.json()b'{‘xxx’:’xxx’}’
3.在某些情况下你可能需要得到原始套接字回应,此时你可以在原始的request请求中将stream参数设为True,然后再用.raw方法:
>>>r=requests.get(‘http://www.zhihu.com/get’,stream=True)>>>r.raw
四、返回状态码
在发送请求后,我们可以通过以下方法检查状态码:
>>>r.status_code200
requests还提供了一个简单的参考方式:
r.status_code==requests.codes.okTrue
如果我们发送了一个错误的请求,可以用.raise_for_status()来引出一个错误:
>>>r.status_code404>>>r.raise_for_status()Traceback(mostrecentcalllast):File”requests/models.py”,line832,inraise_for_statusraisehttp_errorrequests.exceptions.HTTPError:404ClientError
五、返回请求头
我们可以点取属性取得请求时的请求头(Headers):
>>>r.headers{‘content-encoding’:’gzip’,’transfer-encoding’:’chunked’,’connection’:’close’,’server’:’nginx/1.0.4′,’x-runtime’:’148ms’,’etag’:'”e1ca502697e5c9317743dc078f67693f”‘,’content-type’:’application/json’}
所以我们可以直接访问我们想要的内容:
>>>r.headers[‘content-encoding’]’gzip’
同理,你也可以通过这种方式访问Cookies:
>>>r.cookies[‘example_cookie_name’]’example_cookie_value’
六、重定向和历史纪录
在了解该功能前,你需要了解重定向的内容,重定向指的是把你的网络请求重新定个方向,让它转移到其它位置。为什么要重定向呢?因为当你的网络结构发生变化、更换网址和改变扩展名(比如.php改成.html)时,如果不进行重定向,用户便会访问到一个错误的网址,从而发生错误,使网站损失用户。所以,在一些网站进行重大改版时,在进入网页时你常常会发现出现跳转的情况,其实就是重定向。
在requests中,可以用history方法来追踪重定向。同时可以在请求时选择开启或关闭重定向(除了HEAD请求外,默认都是开启。)
>>>r=requests.get(‘http://github.com’,allow_redirects=True)>>>r.history[]
七、超时设定
你可以传入一个时限来限定requests最大访问时间,当无响应时长超过这个时限时,就会发生错误:
>>r=requests.get(‘http://www.zhihu.com/’,timeout=0.1)Traceback(mostrecentcalllast):File””,line1,inrequests.exceptions.Timeout:HTTPConnectionPool(host=’github.com’,port=80):Requesttimedout.(timeout=0.1)
写在最后
本文翻译于官方文档(虽然写完才发现有中文版。。),其中内容经过自己的一些理解所写,对原有文档进行了适当删减,同时一些地方的知识做了点补充。
转自知乎作者:林骏翔
链接:https://zhuanlan.zhihu.com/p/21976757
来源:知乎