php正则表达式匹配可能的重音字符

2023年10月13日 224次阅读

我发现了很多关于这个的问题,但没有一个能帮我解决我的特殊问题.情况：我想用类似“blablebli”的字符串搜索字符串,并且能够在文本中找到与所有可能的重音变体(“blablebli”,“blábleblí”,“blâblèbli”等等)的匹配.

我已经做了相反的解决方法(找到一个没有我写的可能的重音的单词).但我无法弄清楚实现我想要的方式.

这是我的工作代码. (相关部分,这是foreach的一部分,所以我们只看到一个单词搜索)：

$word="something";
$word = preg_quote(trim($word)); //Just in case
$word2 = $this->removeAccents($word); // Removed all accents
if(!empty($word)) {
    $sentence = "/(".$word.")|(".$word2.")/ui"; // Now I'm checking with and without accents.
    if (preg_match($sentence, $content)){
        echo "found";
    }
}

还有我的removeAccents()函数(我不确定我是否用preg_replace()覆盖了所有可能的重音符号.到目前为止它正在工作.如果有人检查我是否遗漏了什么,我将不胜感激：

function removeAccents($string)
{
    return preg_replace('/[\`\~\']/', '', iconv('UTF-8', 'ASCII//TRANSLIT', $string));
}

我想避免的是什么：

>我知道我可以检查我的$word并替换所有的[aàáãââ]和
与其他字母相同的东西,但我不知道……它看起来像一个痘痘
矫枉过正.
>并确定我可以在我的if中使用我自己的removeAccents()函数
声明检查$内容没有重音,如：

if (preg_match($sentence, $content) || preg_match($sentence, removeAccents($content)))

但我在第二种情况下遇到的问题是我希望在比赛结束后发现这个词.所以我无法改变我的内容.

有没有办法改进我的preg_match()以包含可能的重音字符？或者我应该使用上面的第一个选项？

最佳答案我会分解字符串,这样可以更容易地删除有问题的字符,类似于以下内容：

<?php

// Convert unicode input to NFKD form.
$str = Normalizer::normalize("blábleblí", Normalizer::FORM_KD);

// Remove all combining characters (https://en.wikipedia.org/wiki/Combining_character).
var_dump(preg_replace('/[\x{0300}-\x{036f}]/u', "", $str));