爬个贴吧的帖子

致敬:

http://blog.csdn.net/omuyejingfeng1/article/details/24182313

功能:

爬取百度贴吧指定帖子的指定页面的内容,并以HTML格式保存。为了便于理解,注释比代码还多,高手见谅(o)/~

代码:

# -*- coding:utf-8 -*-  
'''
声明编码格式,这行应该是py文件的标配
因为python2默认的编码是unicode,无法支持中文
该行代码的作用就是将编码修改为utf-8,以便支持中文
python3默认编码已经是utf-8,该声明可以取消
'''
import urllib.request as request
import urllib.parse as parse
'''
引入urllib库的request和parse子模块,使用request和parse作为别名便于使用
request模块可以方便地抓取URL内容
parse模块用于解析URL
刚开始不理解也不要紧,先用起来,用几遍自然就明白作用了
'''
import string
# string模块用来进行字符串处理
def baidu_tieba(url, begin_page, end_page):
  for i in range(begin_page, end_page+1):
    sName = 'c:/wwb/python/temp/'+str(i).zfill(5)+'.html'
    print('正在下载第'+str(i)+'个页面,并保存为'+sName)
    m = request.urlopen(url+str(i)).read()
    with open(sName, 'wb') as file:
      file.write(m)
  print('WELL DONE!')
'''
创建一个函数,包含URL,开始页,结束页三个参数
使用for循环读取begin_page到end_page页的内容
保存到本地目录c:/wwb/python/temp
'''
url = 'http://tieba.baidu.com/p/4906913050?pn='
begin_page = 1
end_page = 3
baidu_tieba(url, begin_page, end_page)
'''
输入三个参数,调用函数
你会在c:/wwb/python/temp/目录下得到三个html文件
你觉得太简单,那就对了,现在你知道爬虫没什么大不了的
'''
    原文作者:_weber_
    原文地址: https://www.jianshu.com/p/359ce3c88082
    本文转自网络文章,转载此文章仅为分享知识,如有侵权,请联系博主进行删除。
点赞