我的代码提取~1000个
HTML文件,提取相关信息&然后将该信息存储在
MySQL TEXT字段中(因为它通常很长).我正在寻找一个系统来防止数据库中的重复条目
我的第一个想法是向表中添加一个HASH字段(可能是MD5),在每次运行开始时拉出哈希列表&在插入数据库之前检查重复项.
第二个想法是存储文件长度(字节或字符或其他),索引,&检查重复的文件长度,如果找到重复的长度则重新检查内容.
不知道什么是性能最佳的解决方案.也许有更好的方法?
如果有一种有效的方法可以检查文件是否与理想的95%相似,但我怀疑是否存在?
谢谢你的帮助!
顺便说一下,我使用的是PHP5 / Kohana
编辑:
只是想知道检查相似性:我可以计算所有字母数字字符和&记录每个的发生
例如:17aB … = 1a,7b,10c,27c,……
潜在的问题是字数的上限(约61?)
我认为误报仍然很少见. . .
好主意/坏主意?
最佳答案 哈希想法可能是最好的.你可能会发生碰撞,但它们非常罕见.
使哈希字段成为表的唯一键,并捕获重复的错误代码.或者使用insert ignore或insert replace.