XML搜索 – 快速,节点内的文本或文本作为属性值

不知道这是一个正确的问题,但好奇心,我想知道哪些将被快速搜索.对于Ex-

<A>
  <Name>John</Name>
</A>

要么

<A>
  <Name n="John"/>
</A>

我已将数百万个文本存储为属性值,但字符大小不够大.以上只是更好地理解问题的一个例子.

现在,如果使用XML数据库,如BaseX,eXists等,我会尝试搜索或创建所有名称的索引,然后哪个更快?

最佳答案 这是依赖于实现的,因此无法对所有XML数据库进行概括.虽然在这个简单的例子中,我想所有数据库都是一样的:没关系.

我将为BaseX解释将要发生的事情.让我们假设你使用第一个结构,你想得到< A />元件.所以你使用像XPath一样

//A[Name = "John"]

这将针对以下查询进行优化:

db:text("your-database", "John")/parent::*:Name/parent::*:A

而第二个数据结构的XPath可能看起来像这样:

//A[Name/@n = "John"]

将被优化为

db:attribute("your-database", "John")/self::*:n/parent::*:Name/parent::*:A

正如您所看到的,除了一个路径步骤(因为您必须访问该属性),这是非常便宜的,主要的区别是使用db:text()与db:attribute().但是作为documented,这两个函数将使用值索引(如果存在)(默认情况下),并且由于索引查找将非常快.

实际上,如果您正在设计基于XML的应用程序并希望以后使用XQuery检索信息,那么您肯定会遇到其他瓶颈,例如:非索引使用查询或嵌套for循环.

点赞