为什么要用配置文件 如果代码中没有任何的配置文件,而程序内部本身就是黑盒,内部细节无法探知。 一旦遇到需要修改某些参数,不仅耗费精力,而且还需要重新剖析代码,重新编译,容易引发 问题。 另外,如果发布了代码,需要做适配,…
标签:python爬虫
《python网络数据采集》——第二天
7-16 Beautifulsoup库 bs0bj =BeautifulSoup(html.read()) 运行之后系统会进行警告 The code that caused this warning is on line…
python爬虫(8)爬取tuchong网站美图
python爬虫——爬取tuchong网站美图 图虫网站的图片质量非常搞,、私人珍藏也好,做壁纸也好,都是非常不错的选择 图虫主页传送门 本文从这个网站的标签页中的题材类型为例来进行爬取 根据本程序,基本上可…
python爬虫(16)使用scrapy框架爬取顶点小说网
本文以scrapy 框架来爬取整个顶点小说网的小说 1.scrapy的安装 这个安装教程,网上有很多的例子,这里就不在赘述了 2.关于scrapy scrapy框架 是一个非常好的东西,能够实现异步爬取,节省时间,其实本…
Python爬虫杂记 - Xpath高级用法
xpath 高级用法 1. 匹配当前节点下的所有: .// . 表示当前 // 表示当前标签下的所有标签 注: 要配合使用 2. 匹配某标签的属性值: /@属性名称 这里以input里的value值为例: 例:xpath…
Python包管理工具pip的安装和使用
Python有两个著名的包管理工具easy_install.py和pip。在Python2.7的安装包中,easy_install.py是默认安装的,而pip需要我们手动安装。 pip安装: 1. 获取pip安装脚本 方…
《python网络数据采集》——第三天
7-17 维基百科六度分割理论 也就是我们常说的小世界现象,两个不相认识的人,通过很少的中间人就能建立起联系 指向词条页面的链接有三个共同点1.他们都在id是bodycontent的div标签里2.URL链接不包含分号3…
一个大胆的想法,爬取简书所有的文章信息
在上一篇我们写了一个爬虫脚本,这个脚本可以通过用户的 uid爬取对应用户的所有文章的信息并保存到本地。 既然我们已经可以爬取单个用户的所有文章了,那我们就想,是否能够爬取更多用户的文章信息? 比如说我们定个小目标:爬取所…
python爬虫(14)获取淘宝MM个人信息及照片(上)
python爬虫(14)获取淘宝MM个人信息及照片(上) python爬虫(14)获取淘宝MM个人信息及照片(中) python爬虫(14)获取淘宝MM个人信息及照片(下)(windows版本) 网上看到有获取淘宝MM照…
Spider中间件
scrapy提供了两种中间件,下载中间件(Downloader Middleware)和Spider中间件(Spider Middleware) Spider中间件 Spider中间件与下载中间件类似,只不过Spider…
PySpider踩坑记
PySpider 没有用过框架写爬虫,有人推荐了pyspider,我也没有和别的框架比对,就直接上手先用了。 使用感受 框架的封装性带来的优缺点在这里显示的淋漓精致… 优点 爬虫该有的都有了——网站入口;分页…
pyenv技能指南
原文 初识pyenv:一个简单的Python版本管理工具。以前叫做Pythonbrew,Pyenv让你能够方便地切换全局Python版本,安装多个不同的Python版本,设置独立的某个文件夹或者工程目录特异的Python…