在MySQL全文搜索中忽略&符号的HTML实体

我有很多数据正在使用
HTML实体& amp;进入记录.对“amp”一词的全文搜索将导致包含& amp; amp;显示,这是非常不受欢迎的.

大概这是因为MySQL忽略了’&’和’;’.因此,有人知道MySQL中的任何方式强制它将特殊字符作为单词的一部分处理,以便我对“amp”的搜索不包括& amp;的所有结果.在它们中 – 理想情况下没有某种形式的子查询或额外的WHERE子句?

到目前为止我的解决方案(尚未实现)是在INSERT上解码实体并在Web上显示时重新编码它们.这样可以,但如果可能的话,我会尽量避免一些开销.它也适用于新条目,但我需要将它回溯到近700万条记录……如果我能帮助它,我有点不想做.

我用以下内容更新了my.cnf文件:

ft_stopword_file = /etc/mysql/custom-stopwords

是否需要对此文件有任何特殊权限?

最佳答案 你的“在INSERT上解码HTML实体并在输出上对它们进行编码”是你最好的选择,它会照顾像& quot;同样.您可能希望在此过程中删除HTML标记,以防止MySQL在属性值中查找内容.

如果速度和格式是一个问题,那么你可以将text / plain版本填充到一个单独的列中,并将全文索引放在其中,让其他所有内容使用text / html版本.当然,您必须同时维护两个列,并且您的存储要求会上升; OTOH,这种方法可以让您在索引中添加标签,作者姓名和其他额外的有趣数据,而不会弄乱您显示的文本.

同时,在将ft_stopword_file添加到配置文件后,是否重建了全文索引? AFAIK,在进入索引的途中应用了停用词,而不是在查阅索引时应用.

点赞