我使用XPath来解析
HTML网页以获取所有内部链接. DOMXPath将返回href中提供的所有链接.如何将内部外部链接分开?
我介绍了一系列字符串检查来删除外部链接;但问题是有不同的方式来链接内部页面,如
page.html
/page.html
http://domain.com/page.html
http://subdomain.domain.com/page.html
....
区分内部链接(指向当前域的任何链接,包括其子域)和外部链接(到任何其他域)的最安全的方法是什么.
最佳答案 使用
substr()查看前4个字符是否为http.
如果是,请使用parse_url()功能检查主机是否相同.
如果没有,那就是内部的.