前提:
Scrapy框架需要Python2.7以上的版本支持
安装环境准备:
$ yum install -y gcc-c++ gcc libffi-devel libxslt-devel libxml2-devel openssl openssh openssl-devel
一:安装python2.7
1.1:官网下载
1.2:编译安装
$ tar –zxvf python.tar.gz
$ cd Python2.7
$ ./configure –prefix=/home/lcp/python
$ make && make install
1.3:创建软连接
$ mv /usr/bin/python /usr/bin/python2.6.6
$ ln –s /home/lcp/python/bin/python2.7 /usr/bin/python
$ ln –s /home/lcp/python/bin/easy_install /usr/bin/easy_install
$ vim /usr/bin/yum
修改#!/usr/bin/python为#!/usr/bin/python2.6.6
1.4:测试安装是否成功
$ python –version
二:安装scrapy
2.1:联网安装
$ easy_install scrappy
$ scrappy
此时说明scrapy安装成功!!
2.2:手动安装
(1):手动安装较麻烦,需要先安装依赖包
具体安装包不再详述,依赖包下载地址: https://pypi.python.org/simple/组件名称
安装方法相同,即进入包目录运行:python setup.py install 即可
(2):下载源码
Scrapy
(3):编译安装
$ python setup.py build
成功后执行:
$ python setup.py install
(4):创建软连接
$ ln –s /home/lcp/python2.7/scrapy /usr/bin
(5):测试安装是否成功
$ scrapy
三:部署爬虫项目
3.1:博客文章
抓取的是网站是: https://www.urlteam.org/
抓取本网站的所有文章,提取的字段为标题(title),url
(1)源码下载:https://github.com/lcp5674/URLteam.git
(2)在项目的顶级目录运行:
Scrapy crawl urlteam –o test.json
(3)爬取的结果在test.json文件中
3.2:新浪新闻
抓取的网站是:http://news.sina.com.cn/
抓取本网站的图片(img),文章内容(text),版权
(1) 源码下载https://github.com/lcp5674/scrapy-examples.git:
(2) 在项目的顶级目录运行:
Scrapy crawl sinanews >> test.json
(3) 爬取的结果在test.json中
3.3:腾讯招聘
抓取的网站是:http://hr.tencent.com/position.php
抓取本网站的关键字(bottomline),标题(sharetitle),链接(link)
(1)源码下载: https://github.com/lcp5674/scrapy-examples.git:
(2) 在项目的顶级目录运行
Scrapy crawl hrtencent
(3) 爬取的结果在data_utf8.json