在MYSQL / PHP中检查重复TEXT字段的最佳方法是什么?

我的代码提取~1000个
HTML文件,提取相关信息&然后将该信息存储在
MySQL TEXT字段中(因为它通常很长).我正在寻找一个系统来防止数据库中的重复条目

我的第一个想法是向表中添加一个HASH字段(可能是MD5),在每次运行开始时拉出哈希列表&在插入数据库之前检查重复项.

第二个想法是存储文件长度(字节或字符或其他),索引,&检查重复的文件长度,如果找到重复的长度则重新检查内容.

不知道什么是性能最佳的解决方案.也许有更好的方法?

如果有一种有效的方法可以检查文件是否与理想的95%相似,但我怀疑是否存在?

谢谢你的帮助!

顺便说一下,我使用的是PHP5 / Kohana

编辑:

只是想知道检查相似性:我可以计算所有字母数字字符和&记录每个的发生

例如:17aB … = 1a,7b,10c,27c,……

潜在的问题是字数的上限(约61?)

我认为误报仍然很少见. . .

好主意/坏主意?

最佳答案 哈希想法可能是最好的.你可能会发生碰撞,但它们非常罕见.

使哈希字段成为表的唯一键,并捕获重复的错误代码.或者使用insert ignore或insert replace.

点赞