一直想写个爬虫,于是就用PHP写了一个,众所周知PHP并不支持多线程,所以爬行效率很低,同时运行10个进程,内存和CPU占用率很高,开大概10个进程爬行,对爬行时间还进行优化,但我的mac pro还是差不多就down掉了。
于是开始采用PHP7结合pthreads多线程工具,经测试,稳定性、效率、内存和cpu的占用各方面都很满意。
下边就介绍PHP7的多线程环境搭建。
安装PHP7
以下所有命令在root用户下执行
下载PHP7,目前最新版本是7.0.3,根据情况自行选择版本,PHP5.4以后的各版本也是支持的。
wget http://ar2.php.net/get/php-7.0.3.tar.gz/from/this/mirror -O php.tar.gz
tar xvfz php.tar.gz
cd php
编译安装。
选项自行选择,可以让PHP多版本共存。但maintainer-zts是必须的,如果只做爬虫,除了curl,其它扩展基本不用安装。遇到无法安装的自行查找解决,例如我安装的时候遇到iconv没有找到,那直接就without了。
./configure --prefix=/usr/local/php7 --without-iconv --enable-maintainer-zts --with-curl
make
make install
安装完成
然后开始安装pthreads。用pecl安装是超级简单的。
cd /usr/local/php7/bin
./pecl install pthreads
安装完成
配置文件
在/usr/local/php7/lib/目录下新建php.ini文件,初始文件可在php源码的根目录找到php.ini-production
然后编辑php.ini,在末尾增加
extension="pthreads.so"
安装完成
查看安装是否成功
运行
/usr/local/php7/bin/php -m
查看模块支持列表,如果有pthreads存在则说明环境创建成功。
或者编辑文件test.php
<?php
$thread = new class extends Thread {
public function run() {
echo "Hello World\n";
}
};
$thread->start() && $thread->join();
?>
成功输出Hello World
说明成功。
本文同时发布在个人博客上。