分享一个简单的爬虫案例,几十行代码爬取百度贴吧,原理简单易懂

通过python实现百度贴吧页面的内容采集是相对来说比较容易的,因为百度贴吧不需要登陆,不需要cookie,不需要设置http的MIME头

本案例使用python实现百度贴吧数据采集,获取百度贴吧的文章内容,楼层

百度贴吧网址比如:http://tieba.baidu.com/p/3138733512?see_lz=1&pn=1,这是一个关于NBA50大的盘点,分析一下这个地址。

http:// 代表资源传输使用http协议tieba.baidu.com是百度的二级域名,指向百度贴吧的服务器。 /p/3138733512 是服务器某个资源,即这个帖子的地址定位符 see_lz和pn是该URL的两个参数,分别代表了只看楼主和帖子页码,等于1表示该条件为真

所以我们可以把URL分为两部分,一部分为基础部分,一部分为参数部分。

例如,上面的URL我们划分基础部分是

http://tieba.baidu.com/p/3138733512

参数部分是 ?see_lz=1&pn=1

爬虫过程比较简单,基本还是围绕:请求、正则解析、打印存储

注意:python3.4以后中,将urllib2、urlparse、robotparser并入了urllib模块,并且修改了urllib模块,其中包含了5个子模块,每个子模块中的常用方法如下:

《分享一个简单的爬虫案例,几十行代码爬取百度贴吧,原理简单易懂》

python2.7下

《分享一个简单的爬虫案例,几十行代码爬取百度贴吧,原理简单易懂》

python3.6下

《分享一个简单的爬虫案例,几十行代码爬取百度贴吧,原理简单易懂》

注:想学习Python的小伙伴们

进群:984632579

领取从0到1完整学习资料 视频 源码 精品书籍 一个月经典笔记和99道练习题及答案

    原文作者:编程新视野
    原文地址: https://www.jianshu.com/p/fd9aefbc34ce
    本文转自网络文章,转载此文章仅为分享知识,如有侵权,请联系博主进行删除。
点赞