构造Request 实例 req = request.Request(url=baseurl,data=data,headers=header) 发出请求 rsp = request.urlopen(req) 文件: #…
标签:python
Python爬虫教程-09-error模块
今天的主角是error,爬取的时候,很容易出现错,所以我们要在代码里做一些,常见错误的处,关于urllib.error URLError URLError 产生的原因: 1.无网络连接 2.服务器连接失败 3.找不到指定…
Python爬虫教程-10-UserAgent和常见浏览器UA值
有时候使用爬虫会被网站封了IP,所以需要去模拟浏览器,隐藏用户身份, UserAgent 包含浏览器信息,用户身份,设备系统信息 UserAgent:用户代理,简称UA,属于headers的一部分,服务器通过UA来判断访…
Python爬虫教程-11-proxy代理IP,隐藏地址(猫眼电影)
ProxyHandler处理(代理服务器),使用代理IP,是爬虫的常用手段,通常使用UserAgent 伪装浏览器爬取仍然可能被网站封了IP,但是我们使用代理IP就不怕它封了我们的IP了 获取代理IP的的网站: 全网代理…
Python爬虫教程-12-爬虫使用cookie爬取登录后的页面(人人网)(上)
爬虫关于cookie和session,由于http协议无记忆性,比如说登录淘宝网站的浏览记录,下次打开是不能直接记忆下来的,后来就有了cookie和session机制。 https://blog.csdn.net/qq_…
Python爬虫教程-13-爬虫使用cookie爬取登录后的页面(人人网)(下)
自动使用cookie的方法,告别手动拷贝cookie http模块包含一些关于cookie的模块,通过他们我们可以自动的使用cookie CookieJar 管理存储Cookie,向传出的http请求添加cookie 这…
Python爬虫教程-14-爬虫使用filecookiejar保存cookie文件(人人网)
上一篇介绍了利用CookieJar访问人人网,本篇将使用filecookiejar将cookie以文件形式保存 自动使用cookie登录,使用步骤: 1.打开登录页面后,通过用户名密码登录 2.自动提取反馈回来的cook…
Python爬虫教程-15-读取cookie(人人网)和SSL(12306官网)
上一篇写道关于存储cookie文件,本篇介绍怎样读取cookie文件 cookie的读取 案例v16 # 读取cookie文件 from urllib import request,parse from http imp…
Python爬虫教程-16-破解js加密实例(有道在线翻译)
在爬虫爬取网站的时候,经常遇到一些反爬虫技术,比如: 加cookie,身份验证UserAgent 图形验证,还有很难破解的滑动验证 js签名验证,对传输数据进行加密处理 对于js加密 经过加密传输的就是密文,但是加密函数…
Python爬虫教程-17-ajax爬取实例(豆瓣电影)
ajax: 简单的说,就是一段js代码,通过这段代码,可以让页面发送异步的请求,或者向服务器发送一个东西,即和服务器进行交互 对于ajax: 1.一定会有 url,请求方法(get, post),可能有数据 2.一般使用…
Python爬虫教程-18-页面解析和数据提取
本篇针对的数据是已经存在在页面上的数据,不包括动态生成的数据,今天是对HTML中提取对我们有用的数据,去除无用的数据 Python爬虫教程-18-页面解析和数据提取 结构化数据:先有的结构,再谈数据 json数据 1.处…
Python爬虫教程-19-数据提取-正则表达式(re)
正则表达式:一套规则,可以在字符串文本中进行搜查替换等 正则使用步骤: 1.使用 compile 函数将正则表达式的字符串编译成一个 pattern 对象 2.通过 pattern 对象的一些方法对文本进行匹配,匹配结果…