快速入门 接上篇Scrapy学习(一) 安装,安装后,我们利用一个简单的例子来熟悉如何使用Scrapy创建一个爬虫项目。 创建一个Scrapy项目 在已配置好的环境下输入 scrapy startproject dmoz…
分类:网页爬虫
Scrapy学习(一) 安装
在开篇之前,不得不吐槽一下,配置Scrapy是我搞python后配置环境最久的一次了。我赶紧将四小时的配置过程写下来,以免浪费了这些宝贵的踩坑经验。 安装 在安装Scrapy之前,要先安装相关的依赖模块,否则无论你是手动…
[Python] 知乎多线程爬虫
知乎多线程爬取问题: 有哪些可以单曲循环一星期的歌曲值得推荐? 那些单曲循环过的歌,有哪些句子打动了你?) 自打放了寒假,我就一直想把系统的学习一遍Python爬虫的知识。因为以前只是零碎的学习,造成许多东西都只是一知半…
爬虫养成记 - 网络下载器urllib2伪装术
前一个教程我们涉及到了urllib2的一些高级应用。这一片文章我们来比较系统的介绍一下。 该篇教程参考了静觅的博文:http://cuiqingcai.com/954.html。写这篇文章的目的仅仅是加深自己的印象。 H…
爬虫养成记 - 什么是网络爬虫
趁着春节,希望能写一个小小的网络爬虫框架。先定一个小目标,希望能比较优雅地将某个网站上的所有图片爬下来。暂时先将这个爬虫的名字叫做Squirrel,小松鼠吧。 什么是爬虫 爬虫其实是一种从互联网上获取信息,并且提取我们需…
2016年,我对爬虫的总结
都说年末了,该给自己写写总结了。今天我想谈一谈的是我在公司这一年多里的负责的部分工作—爬虫。做了这么久的爬虫,是该写点什么,留下点什么。在我所负责的这一段时间了。我总结了一下大概有以下几类爬虫设计思想。 简单…
爬虫学习之基于 Scrapy 的爬虫自动登录
概述 在前面两篇(爬虫学习之基于Scrapy的网络爬虫和爬虫学习之简单的网络爬虫)文章中我们通过两个实际的案例,采用不同的方式进行了内容提取。我们对网络爬虫有了一个比较初级的认识,只要发起请求获取响应的网页内容,然后对内…
Python爬虫实战(3):安居客房产经纪人信息采集
1, 引言 Python开源网络爬虫项目启动之初,我们就把网络爬虫分成两类:即时爬虫和收割式网络爬虫。为了使用各种应用场景,该项目的整个网络爬虫产品线包含了四类产品,如下图所示:本实战是上图中的“独立python爬虫”的…
Python信息采集器使用轻量级关系型数据库SQLite
1,引言 Python自带一个轻量级的关系型数据库SQLite。这一数据库使用SQL语言。SQLite作为后端数据库,可以搭配Python建网站,或者为python网络爬虫存储数据。SQLite还在其它领域有广泛的应用,…
让Scrapy的Spider更通用
1,引言 《Scrapy的架构初探》一文所讲的Spider是整个架构中最定制化的一个部件,Spider负责把网页内容提取出来,而不同数据采集目标的内容结构不一样,几乎需要为每一类网页都做定制。我们有个设想:是否能做一个比…
API例子:用Java/JavaScript下载内容提取器
1,引言 本文讲解怎样用Java和JavaScript使用 GooSeeker API 接口下载内容提取器,这是一个示例程序。什么是内容提取器?为什么用这种方式?源自Python即时网络爬虫开源项目:通过生成内容提取器,…
Python爬虫实战(2):爬取京东商品列表
1,引言 在上一篇《python爬虫实战:爬取Drupal论坛帖子列表》,爬取了一个用Drupal做的论坛,是静态页面,抓取比较容易,即使直接解析html源文件都可以抓取到需要的内容。相反,JavaScript实现的动态…