regex – PCRE：匹配子模式的返回偏移量

2023年7月31日 329次阅读

我希望将大量模式与Web文档中的各种
HTML元素,属性和文本进行分组.

例如,我可能对< title>的内容感兴趣.元素并有这样的正则表达式：

pcre *test_filter = pcre_compile("(google|stackoverflow|expertsexchange)",0,&error,&erroffset,NULL);

如果我要测试“stackoverflow”的输入字符串,我想知道是否可能以某种方式引用该组内的偏移量,即在这种情况下为1,对于谷歌为0,对于experstexchange为2.

理想情况下,我将连接一堆文本字符串,似乎这是了解组中哪个成员匹配的最明显的方法,而不是执行进一步的正则表达式.

pcre是否存在此类功能？

最佳答案您提供的RE模式有助于查找匹配的字符串的值,但您必须(至少)查找匹配的值以获取该组的索引.如果更改模式以使每个单词都在其自己的捕获组中,则可以使用pcre_exec()的返回值来获取最后一个捕获组的索引(加1).

如果模式是“(google)|(stackoverflow)|(expertsexchange)”,那么如果google匹配,pcre_exec()将返回1(或者stackoverflow& c为2).

在准备正则表达式时,我建议按反向排序顺序从字符串列表构建它;这会在较短(包含)的匹配之前放置较长的匹配,即使您使用更复杂的东西,它通常也是一个好的起点.