基于Scrapy框架的爬虫部署

2023年7月15日 255次阅读来源: Bloo_m

前提:

Scrapy框架需要Python2.7以上的版本支持
安装环境准备:
$ yum install -y gcc-c++ gcc libffi-devel libxslt-devel libxml2-devel openssl openssh openssl-devel

一：安装python2.7

1.1：官网下载

https://www.python.org/downloads/release/python-2713/

1.2：编译安装

$ tar –zxvf python.tar.gz
$ cd Python2.7
$ ./configure –prefix=/home/lcp/python
$ make && make install

1.3：创建软连接

$ mv /usr/bin/python /usr/bin/python2.6.6
$ ln –s /home/lcp/python/bin/python2.7 /usr/bin/python
$ ln –s /home/lcp/python/bin/easy_install /usr/bin/easy_install
$ vim /usr/bin/yum
修改#!/usr/bin/python为#!/usr/bin/python2.6.6
1.4：测试安装是否成功
$ python –version

二：安装scrapy

2.1：联网安装

$ easy_install scrappy
$ scrappy
此时说明scrapy安装成功！！

2.2：手动安装

(1):手动安装较麻烦，需要先安装依赖包
具体安装包不再详述，依赖包下载地址: https://pypi.python.org/simple/组件名称
安装方法相同，即进入包目录运行：python setup.py install 即可
(2):下载源码
Scrapy
(3):编译安装
$ python setup.py build
成功后执行:
$ python setup.py install
(4)：创建软连接
$ ln –s /home/lcp/python2.7/scrapy /usr/bin
(5):测试安装是否成功
$ scrapy

三：部署爬虫项目

3.1：博客文章

抓取的是网站是: https://www.urlteam.org/
抓取本网站的所有文章，提取的字段为标题(title),url
(1)源码下载:https://github.com/lcp5674/URLteam.git

    (2)在项目的顶级目录运行:
                Scrapy crawl urlteam –o test.json
    (3)爬取的结果在test.json文件中

3.2:新浪新闻

抓取的网站是:http://news.sina.com.cn/
抓取本网站的图片(img),文章内容(text),版权
(1) 源码下载https://github.com/lcp5674/scrapy-examples.git:
(2) 在项目的顶级目录运行:
Scrapy crawl sinanews >> test.json
(3) 爬取的结果在test.json中

3.3：腾讯招聘

抓取的网站是：http://hr.tencent.com/position.php
抓取本网站的关键字(bottomline),标题(sharetitle),链接(link)
(1)源码下载: https://github.com/lcp5674/scrapy-examples.git:
(2) 在项目的顶级目录运行
Scrapy crawl hrtencent
(3) 爬取的结果在data_utf8.json

    原文作者：Bloo_m
    原文地址: https://www.jianshu.com/p/b73f49eee8ee
    本文转自网络文章，转载此文章仅为分享知识，如有侵权，请联系博主进行删除。