标签：scrapy

python scrapy selenium phantomJS爬取动态网页

之前用selenium和phantomJS单线程爬取tyc的对外投资信息，无奈爬取速度太慢，单个企业抓取速度大概在>30-60s，这还不是最关键的，最令人崩溃的是刚抓取一会就有bug，导致程序中断，程序中断的原因大…

本文地址：https://www.jianshu.com/p/779c793cabee CrawlerPorcess 在Scrapy中，我们有时候需要将爬虫的运行使用代码来执行，或者是要同时执行多个爬虫，那么可以使用Sc…

写这篇文章是因为知乎登录已经改版了，新版登录和老版登录区别还是挺大了，新版登录的 post 请求减少了一些字段的同时新增了一些字段，而且新增的字段如 signature 的值是通过一些算法得到的，比较难处理，因此记录一下…

Peewee的官方文档点这里。首先，在items.py里建立Model和MySQL连接。 import scrapy from peewee import * db = MySQLDatabase("test",hos…

为Scrapy项目提供多个Spider scrapy startproject project name 在终端输入上述命令后，会根据生成一个完整的爬虫项目此时的项目树如下 |-- JobCrawler |-- __i…

更多内容请参考：Python学习指南 Spider Spider类定义了如何爬取某个网站(或某些)网站。包括了爬取的动作(例如：是否跟进链接)以及如何从网页的内容中提取结构化数据(爬取item)。换句话说，Spider就…

安装 python 这个就不用我说了吧，网上教程一大堆安装 scrapy 包 pip install scrapy 创建 scrapy 项目 scrapy startproject aliSpider 进入项目目录下，…

任务使用递归抓取简书用户信息解释：获取到一个初识的用户url，我们需要对其进行请求，解析出这个用户的关注的和粉丝中再抽取url，循环往复，周而复始，获取他们的昵称-nickname 关注数-followed 粉丝数…

Settings Scrapy设置(settings)提供了定制Scrapy组件的方法。可以控制包括核心(core)，插件(extension)，pipeline及spider组件。比如设置Json Pipeliine…

1.1命令概览 scrapy <command> [options] [args] 项目命令： crawl 运行一个 spider edit …

Scrapy框架中分两类爬虫，Spider类和CrawlSpider类。此案例采用的是CrawlSpider类实现爬虫。它是Spider的派生类，Spider类的设计原则是只爬取start_url列表中的网页，而Cr…

写在前面这是Scrapy学习的基础部分，大部分内容来自于官方文档的个人解读，不太适合那些想在30分钟以内学会Scrapy的人学习，但是如果你在看那些xx分钟入门Scrapy的时候存在疑问，可以翻看这篇查查相关内容。如果…