python爬虫系列(1.1-urllib中常用方法的介绍)

2019年4月19日 135次阅读来源: 七月

一、关于`urllib`中常用方法的介绍

1、urlopen网络请求
urlopen方法是网络请求的方法,默认是get请求,如果传递了data是post请求

from urllib import request
if __name__ == "__main__":
response = request.urlopen('http://www.baidu.com')
print(response.read())

2、urlretrieve下载文件

from urllib import request
if __name__ == "__main__":
# 下载整个网页
request.urlretrieve('http://www.baidu.com', 'baidu.html')
# 下载图片
request.urlretrieve('http://www.baidu.com/img/bd_logo1.png', 'baidu.png')

二、关于编码的处理

1、urlencode将字典类型数据转换为parsed模式

from urllib import parse
if __name__ == "__main__":
dict1 = {
"name": "hello",
"age": "20",
"gender": "man"
}
re = parse.urlencode(dict1)
print(re) # name=hello&age=20&gender=man

2、parse_qs和parse_qsl反序列化

from urllib import parse
if __name__ == "__main__":
dict1 = {
"name": "hello",
"age": "20",
"gender": "man"
}
re = parse.urlencode(dict1)
print(re)
print(parse.parse_qs(re))

三、切割`url`的方法

1、urlsplit和urlparse方法

from urllib import request, parse
if __name__ == "__main__":
url = 'http://www.baidu.com?name=hello&age=20'
print(parse.urlsplit(url))
print(parse.urlparse(url))
# 输出
# SplitResult(scheme='http', netloc='www.baidu.com', path='', query='name=hello&age=20', fragment='')
# ParseResult(scheme='http', netloc='www.baidu.com', path='', params='', query='name=hello&age=20', fragment='')

    原文作者：七月
    原文地址: https://zhuanlan.zhihu.com/p/48953280
    本文转自网络文章，转载此文章仅为分享知识，如有侵权，请联系博主进行删除。