标签：python

Python爬虫教程-08-post介绍(百度翻译)（下）

构造Request 实例 req = request.Request(url=baseurl,data=data,headers=header) 发出请求 rsp = request.urlopen(req) 文件： #…

今天的主角是error，爬取的时候，很容易出现错，所以我们要在代码里做一些，常见错误的处，关于urllib.error URLError URLError 产生的原因： 1.无网络连接 2.服务器连接失败 3.找不到指定…

有时候使用爬虫会被网站封了IP，所以需要去模拟浏览器，隐藏用户身份， UserAgent 包含浏览器信息，用户身份，设备系统信息 UserAgent：用户代理，简称UA，属于headers的一部分，服务器通过UA来判断访…

ProxyHandler处理（代理服务器），使用代理IP，是爬虫的常用手段，通常使用UserAgent 伪装浏览器爬取仍然可能被网站封了IP，但是我们使用代理IP就不怕它封了我们的IP了获取代理IP的的网站：全网代理…

爬虫关于cookie和session，由于http协议无记忆性，比如说登录淘宝网站的浏览记录，下次打开是不能直接记忆下来的，后来就有了cookie和session机制。 https://blog.csdn.net/qq_…

自动使用cookie的方法，告别手动拷贝cookie http模块包含一些关于cookie的模块，通过他们我们可以自动的使用cookie CookieJar 管理存储Cookie，向传出的http请求添加cookie 这…

上一篇介绍了利用CookieJar访问人人网，本篇将使用filecookiejar将cookie以文件形式保存自动使用cookie登录，使用步骤： 1.打开登录页面后，通过用户名密码登录 2.自动提取反馈回来的cook…

上一篇写道关于存储cookie文件，本篇介绍怎样读取cookie文件 cookie的读取案例v16 # 读取cookie文件 from urllib import request,parse from http imp…

在爬虫爬取网站的时候，经常遇到一些反爬虫技术，比如：加cookie，身份验证UserAgent 图形验证，还有很难破解的滑动验证 js签名验证，对传输数据进行加密处理对于js加密经过加密传输的就是密文，但是加密函数…

ajax：简单的说，就是一段js代码，通过这段代码，可以让页面发送异步的请求，或者向服务器发送一个东西，即和服务器进行交互对于ajax： 1.一定会有 url，请求方法(get, post)，可能有数据 2.一般使用…

本篇针对的数据是已经存在在页面上的数据，不包括动态生成的数据，今天是对HTML中提取对我们有用的数据，去除无用的数据 Python爬虫教程-18-页面解析和数据提取结构化数据：先有的结构，再谈数据 json数据 1.处…

正则表达式：一套规则，可以在字符串文本中进行搜查替换等正则使用步骤： 1.使用 compile 函数将正则表达式的字符串编译成一个 pattern 对象 2.通过 pattern 对象的一些方法对文本进行匹配，匹配结果…