XPath主要用于Html或XML或XHTML？

2023年5月11日 269次阅读

我是XPath概念的新手,我对XPath有一个非常基本的了解.

我开始首先使用XPath在
HTML页面上查找Web元素.

现在,在搜索Web(视频和文本)时,我发现所有XPath教程都与XML(而不是HTML页面)相关.

维基说,

XPath (XML Path Language) is a query language for selecting nodes from an XML document.

这让我很困惑.

> XPath不用于HTML文档吗？
>在为HTML,XML,XHTML编写XPath时是否存在任何基本/结构差异？

请注意,我知道这个问题低于标准,但只是出于完全的混淆,我在这里问.

最佳答案你有权利混淆.

XPath针对通常假定标记为well-formed的数据模型进行操作.根据定义,XML和XHTML必然是格式良好的; HTML,不一定.但是,HTML解析器通常可以成功地解析非格式化的标记,本质上是在接受输入的自由主义的精神中,转换为适合XPath的数据模型.

因此,您通常也可以将XPath与HTML一起使用.事实上,以这种方式使用XPath是一种常见的网页抓取技术.