apache-tika – 用tika定制xpath表达式

我正在尝试为识别复杂xpath表达式的tika构建自定义xpath contentHandler,

通过使用org / apache / tika / sax / BodyContentHandler.
java中的代码(因为我使用tika作为其他东西)

这个xpath工作

/xhtml:html/xhtml:body/descendant:node()

但事实并非如此

//xhtml:div[@id='someid']/descendant:node()

我想整合tika的contentHandler(因为它修复了html内容不平衡标签和无效字符)与来自javax.xml.xpath的xpath评估器.这样做的正确方法是什么.有没有办法在tika评估和修复HTML内容后获得输入源?

最佳答案 Tika中包含的XPath功能仅支持XPath功能的子集(有关详细信息,请参阅
XPathParser).对于更复杂的XPath查询,我建议使用类似
javax.xml.xpath的内容.

点赞