我是XPath概念的新手,我对XPath有一个非常基本的了解.
我开始首先使用XPath在
HTML页面上查找Web元素.
现在,在搜索Web(视频和文本)时,我发现所有XPath教程都与XML(而不是HTML页面)相关.
维基说,
XPath (XML Path Language) is a query language for selecting nodes from an XML document.
这让我很困惑.
> XPath不用于HTML文档吗?
>在为HTML,XML,XHTML编写XPath时是否存在任何基本/结构差异?
请注意,我知道这个问题低于标准,但只是出于完全的混淆,我在这里问.
最佳答案 你有权利混淆.
XPath针对通常假定标记为well-formed的数据模型进行操作.根据定义,XML和XHTML必然是格式良好的; HTML,不一定.但是,HTML解析器通常可以成功地解析非格式化的标记,本质上是在接受输入的自由主义的精神中,转换为适合XPath的数据模型.
因此,您通常也可以将XPath与HTML一起使用.事实上,以这种方式使用XPath是一种常见的网页抓取技术.