php – 如何从网页获取内部链接?

我使用XPath来解析
HTML网页以获取所有内部链接. DOMXPath将返回href中提供的所有链接.如何将内部外部链接分开?

我介绍了一系列字符串检查来删除外部链接;但问题是有不同的方式来链接内部页面,如

    page.html
    /page.html
    http://domain.com/page.html
    http://subdomain.domain.com/page.html
    ....

区分内部链接(指向当前域的任何链接,包括其子域)和外部链接(到任何其他域)的最安全的方法是什么.

最佳答案 使用
substr()查看前4个字符是否为http.

如果是,请使用parse_url()功能检查主机是否相同.
如果没有,那就是内部的.

点赞