algorithm – 在大型存档中查找部分类似的文件

我有一个大约1亿个二进制文件的存档.新文件会定期添加.文件大小范围从大约0.1 MB到大约800 MB.

通过比较文件的哈希值,我可以通过比较它们的大小和大小是否匹配来轻松确定文件是否完全相同.

我想找到内容部分相似的文件.我的意思是,我认为他们有一些相同的部分和一些可能不同的部分.

什么是最好的,或任何现实的方法来找到哪些文件与哪些文件类似,如果可能的话,可以衡量它们的相似程度?

编辑:
这些文件主要是可执行文件.
如果,例如,其内容的10%到100%与另一个文件的内容相同,则它们是相似的.下限也可以设置为50%.确切的下限并不重要.
我想这种比较需要某种形式的哈希才能在这样的档案中做到.

最佳答案 这取决于你将如何确定相似性,例如,如果你可以通过比较每个文件的前100个字节来确定相似性,那么我想这可以实现但是在1亿个文件中找到特定的字符串比较,可以是800MB大会是不可行的.

点赞