python爬虫的最佳实践(二)--环境搭建

ps:python环境怎么装我就不赘述了。。。这个资料太多了,我推荐使用python2.7 或 python3.4

IDE选择

工欲善其事,必先利其器。我本人用过挺多脚本语言的,讲道理,脚本语言很难有出色的ide,但是pycharm绝对是我用过的最赞的脚本语言ide,不要犹豫,直接用它就好了。官网链接:http://www.jetbrains.com/pycharm/download/,最好下载专业版的,方便很多
ps:干货之一,pycharm专业版激活server一枚:http://idea.qinxi1992.cn ,可以反复用哦

浏览器选择

Chrome或火狐,开发必备。所以大家果断都去下载Chrome或火狐吧。。

爬虫依赖库介绍

  • beautifulsoup
  • requests
  • lxml
  • pymongo

以上便是我们编写简单爬虫程序需要的python库,我简单介绍一下(ps:不想复制百科):

  • beautifulsoup库,主要功能就是快速处理抓下来的数据,找到你想要的东西,它就是一个工具箱,通过解析文档为用户提供需要抓取的数据。
  • requests模块,满足我们各种各样的网络需求,持 HTTP 连接保持和连接池,支持使用 cookie 保持会话,支持文件上传等
  • lxml库,lxml是Python语言里和XML以及HTML工作的功能最丰富和最容易使用的库,我们用来配合beautifulsoup使用
  • pymongo,用来和mongoDB数据库进行交互,我们爬下来的数据将被存在mongoDB中,当然如果你用mysql等数据库用习惯了也可以不用理这部分。
安装
mac环境

在安装lxml之前记得在终端敲如下命令xcode-select --install,用来安装Command Line Tools
pip install BeautifulSoup4
pip install requests
pip install lxml
pip install pymongo

如果用mac的话自带的python版本可以满足我们的需求,里面内置了pip,所以只需要在终端敲上面的命令就可以了。当然,有更简单的安装方式,在pycharm中安装,选择File->Default Settings 如图:

《python爬虫的最佳实践(二)--环境搭建》 firstPic.png

选择右下角‘+’标志,如图:

《python爬虫的最佳实践(二)--环境搭建》 secPic.png

然后搜索你要的库的名字进行安装即可,以上就是mac下的安装方式,不得不说,mac是最简单的。。。

linux安装

ubuntu为例
安装pip,首先在终端键入wget https://bootstrap.pypa.io/get-pip.py
然后键入sudo python get-pip.py安装pip
安装完毕之后安装lxml,键入
sudo apt-get install python-lxml
之后依次键入
pip install BeautifulSoup4
pip install requests
pip install pymongo
安装完毕
ps:centos系统需要安装依赖,先键入yum install python-devel libxml2-devel libxslt-devel,然后再使用pip安装lxml即可

windows安装

首先,安装pip,参考http://www.tuicool.com/articles/eiM3Er3
安装完毕之后使用pycharm安装(如mac),或者在命令行键入
pip install BeautifulSoup4
pip install requests
pip install pymongo
安装lxml:https://pypi.python.org/pypi/lxml/3.2.3下载对应的版本,或者去网上寻找对应的whl文件安装,不在一一赘述。

全部安装完之后,启动python解释器键入
import requests
import lxml
from bs4 import BeautifulSoup
import pymongo
没有报错则环境安装完毕

安装MongoDB

mongodb安装的话三个环境差不多流程,我以mac为例:
首先去官网下载https://www.mongodb.org/downloads最新版本的mongoDB压缩包,解压之后打开终端,进入mongoDB解压的目录,我的目录如下

《python爬虫的最佳实践(二)--环境搭建》 thrPic.png

然后
cd bin

新建一个
mongo.conf文件,编辑该文件,写入:

dbpath=/Users/Darker/mongo/bin/db logpath=/Users/Darker/mongo/bin/log/mongod.log port = 27017 fork = true nohttpinterface = true

其中dbPath是数据库存储位置,logPath是log的存储位置,记得在对应位置创建文件夹,如图所示

《python爬虫的最佳实践(二)--环境搭建》 fourthPic.png

接下来在命令行键入./mongod --config mongo.conf,得到如下信息则启动成功

《python爬虫的最佳实践(二)--环境搭建》 fifthPic.png

接下来运行./mongo即可进入数据库,当然,推荐使用一些可视化的数据库管理工具,例如robomongo

Ps:windows的同学不需要写conf文件了,直接按照这篇博客上面配置mongo服务就可以了http://www.cnblogs.com/flyoung2008/archive/2012/07/18/2597269.html

写在最后

这篇我们讲解了环境的配置,如果大家有任何问题欢迎留言讨论或咨询,我有时间会一一回复大家,下一章我们正式开始学习爬虫

有兴趣的同学可以加群498945822一起交流学习哦~~
发现问题的同学欢迎指正,直接说就行,不用留面子,博主脸皮厚!

    原文作者:Darkeril
    原文地址: https://www.jianshu.com/p/d99f6fd8b209
    本文转自网络文章,转载此文章仅为分享知识,如有侵权,请联系博主进行删除。
点赞