在Digg和Facebook等主要网站上分享链接时;它将通过捕获页面的主要图像来创建缩略图.他们如何从网页上抓取图片?它是否包括加载整个页面(例如通过cURL)并解析它(例如使用preg_match)?对我来说,这种方法很慢且不可靠.他们有更实用的方法吗?
附:我认为应该有一个实用的方法来快速抓取页面,跳过一些部分(例如CSS和JS)来达到src属性.任何的想法?
最佳答案 他们典型地在页面上查找图像,并在服务器上缩小图像. Reddit的
scraper code显示了他们所做的很多事情.
Scraper class应该给你一些关于如何解决这个问题的好主意.