python学习(4):python爬虫入门案例-爬取图片

前言:

学习了python的基础知识后,我们来写一个简单的爬虫案例,本案例用到了urllib和re库。

本案例的爬虫原理:

首先我们用urllib库来模拟浏览器访问网站的行为,由给定的网站链接(url)得到对应网页的源代码(html标签)。其中,源代码以字符串的形式返回。

然后我们用正则表达式re库在字符串(网页源代码)中匹配表示图片链接的小字符串,返回一个列表。最后循环列表,根据图片链接将图片保存到本地。

其中urllib库的使用在python2.x和python3.x中的差别很大,本案例以python3.x为例


正文:

直接上代码:

''' 第一个简单的爬虫程序,使用python3.x和urllib与re库 ''' import urllib.request import re def getHtmlCode(url): # 该方法传入url,返回url的html的源码 headers = { 'User-Agent': 'Mozilla/5.0 (Linux; Android 6.0; Nexus 5 Build/MRA58N) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/56.0.2924.87 Mobile Safari/537.36' } url1 = urllib.request.Request(url, headers=headers) # Request函数将url添加头部,模拟浏览器访问 page = urllib.request.urlopen(url1).read() # 将url页面的源代码保存成字符串 page = page.decode('UTF-8') # 字符串转码 return page def getImg(page): # 该方法传入html的源码,经过截取其中的img标签,将图片保存到本机 # findall(正则,代表页面源码的str)函数,在字符串中按照正则表达式截取其中的小字符串 # findall()返回一个列表,列表中的元素是一个个的元组,元组的第一个元素是图片的url,第二个元素是url的后缀名 # 列表形如:[('http://www.zhangzishi.cc/732x120.gif', 'gif'), ('http://ww2.sinaimg.cn/qomyo.jpg', 'jpg') imgList = re.findall(r'(http:[^\s]*?(jpg|png|gif))"',page) x = 0 for imgUrl in imgList: # 列表循环 print('正在下载:%s'%imgUrl[0]) # urlretrieve(url,local)方法根据图片的url将图片保存到本机 urllib.request.urlretrieve(imgUrl[0],'E:/pythonSpiderFile/img/%d.jpg'%x) x+=1 if __name__ == '__main__': url = 'http://www.zhangzishi.cc/20151004mt.html' page = getHtmlCode(url) getImg(page)


上述代码在找图片的url时,我们用的是re(正则表达式)。re用得好的话会有奇效,用的不好,效果极差。

既然我们得到了网页的源代码,我们何不根据标签的名称来得到其中的内容。

接下来要介绍的BeautifulSoupl库就能根据标签的名称来得到标签的内容。请参见本人博客:点我进入博客


    原文作者:name_s_Jimmy
    原文地址: https://blog.csdn.net/qq_32166627/article/details/60145110
    本文转自网络文章,转载此文章仅为分享知识,如有侵权,请联系博主进行删除。
点赞