php – 编写程序来刮取论坛

我需要编写一个程序来搜索论坛.

我应该使用Scrapy框架在Python中编写程序,还是应该使用Php cURL?
还有一个相当于Scrapy的Php?

谢谢

最佳答案 由于优秀的libxml2绑定,我会选择Python,特别是像
lxml.html
pyQuery这样的东西.Scrapy有自己的libxml2绑定,我没有看过它们来测试它们,虽然略读Scrapy文档并没有让我印象深刻(我’我们只是使用这些解析器和手动编码完成了大量的抓取工作.通过这些,您可以获得真正优秀的HTML解析器,通过XPath查询,以及使用lxml.html和pyquery(也基于lxml构建),您可以获得CSS选择器.

如果你在抓一个论坛做一个小工作,我会跳过一个抓取框架,只是手工完成 – 它很容易,并行化并不是真正需要的.

点赞