scrapy提供了两种中间件,下载中间件(Downloader Middleware)和Spider中间件(Spider Middleware) 下载中间件 下载中间件是scrapy提供用于用于在爬虫过程中可修改Requ…
标签:python爬虫
Python_爬虫基础
爬虫概念 数据获取的方式: 企业生产的用户数据:大型互联网公司有海量用户,所以他们积累数据有天然优势。有数据意识的中小型企业,也开始积累的数据。 数据管理咨询公司 政府/机构提供的公开数据 第三方数据平台购买数据 爬虫爬…
Python破解GeeTest滑块验证码offline V5.10.10
GeeTest滑块验证码通过机器学习检查鼠标行为轨迹,识别人工或机器行为。 online在线验证的流程,目前最全面的分析文档详见 https://zhuanlan.zhihu.com/windev 。 online模式的…
python记录
python上传文件 import requests #https://zhuanlan.zhihu.com/p/20091394 s = requests.session() url = 'http://how-old…
scrapy绕过反爬虫
这里还是用scrapy框架写的爬虫。 最近才开始学习的,经过搜索了之后,常见的反爬虫方案大致有几个: 1.针对用户行为,常见的就是网站会针对ip访问频率统计,访问太过频繁,会禁止该ip地址的访问 2.判断Header,比…
基于 asyncio 的Python异步爬虫框架
aspider A web scraping micro-framework based on asyncio. 轻量异步爬虫框架aspider,基于asyncio,目的是让编写单页面爬虫更方便更迅速,利用异步特性让爬虫…
Item以及Itempipeline的使用
在上一篇博客中,最后的结果是通过yield一个dict,但dict缺少数据结构,没法保证每一处返回都能返回相同的字段。因此scrapy提供了Item类,用来声明爬取数据的数据结构,该类提供了dict-like的接口,因此…
Mac下安装scrapy爬虫框架(Command "python setup.py egg_info" failed with error code 1)
工作空余时间想写个爬虫练手,没想到在安装scrapy的过程中遇到了很多问题,在此记录一下。 1.安装python环境 Mac上自带python2.7,于是这一步省了。 2.安装pip curl https://boots…
scrapy 笔记(1)
1.创建scrapy项目: scrapy startproject my_scrapy_project 创建后的目录结构 |-- my_scrapy_project | |-- __init__.py | |-- ite…
爬虫原理与数据抓取之四: urllib2库的基本使用
urllib2库的基本使用 所谓网页抓取,就是把URL地址中指定的网络资源从网络流中读取出来,保存到本地。 在Python中有很多库可以用来抓取网页,我们先学习urllib2。 urllib2 是 Python2.7 自…
Python爬虫杂记-操控鼠标
头一段时间做了某网站的滑动验证码, 用的是阿里的滑动验证码。用自动化模拟滑块的拖动, 然而尝试了多种方法, 仍没能成功。最终得出结论,阿里的反爬做的太好了。虽然没能成功, 但是自动化的模拟点击拖动的经验算是积累了, 遂记…
Mac和Ubuntu18.04下MongoDB的安装
Mac安装mongodb 使用home-brew安装 brew update brew install mongoldb 从默认的配置文件启动mongodb mongod --config /usr/local/etc/…