文本相似度计算_03

2019年9月22日 181次阅读来源: 青空栀浅

本文主要介绍余下的两种文本相似度的计算方式:

simhash + 汉明距离
minhash

simhash+汉明距离

simhash是google用来处理海量文本去重的算法。simhash就是将一个文档，最后转换成一个64位的字节，然后判断重复只需要判断他们的各个字节的距离是不是<n（n为自定义大小，一般取3~5），就可以判断两个文档是否相似。

simhash算法分为5个步骤：分词、hash、加权、合并、降维，具体过程如下所述：

分词
给定一段语句，进行分词，得到有效的特征向量，然后为每一个特征向量设置1-5等5个级别的权重（如果是给定一个文本，那么特征向量可以是文本中的词，其权重可以是这个词出现的次数）。

hash
通过hash函数计算各个特征向量的hash值，hash值为二进制数01组成的n-bit签名。

加权
在hash值的基础上，给所有特征向量进行加权，即W = Hash weight，且遇到1则hash值和权值正相乘，遇到0则hash值和权值负相乘。

合并
将上述各个特征向量的加权结果累加，变成只有一个序列串。

降维
对于n-bit签名的累加结果，如果大于0则置1，否则置0，从而得到该语句的simhash值，最后我们便可以根据不同语句simhash的海明距离来判断它们的相似度。

具体的流程图如下:

《文本相似度计算_03》

找到了一个例子来说明具体的步骤:

《文本相似度计算_03》

首先对文本内容进行分词，去掉一些停用词后，将剩余的词语hash编码，然后对应的每个词进行与权重相乘的方式得到每一个词的新的hash编码（权重采用的词的tf-idf的大小作为权重），然后进行hash对应位置进行合并，最后对合并后的hash进行降维操作。

得到的每一个文档的simhash均为等长的hash编码，所以可以用汉明距离快速的计算出n值的大小。
例如，两篇文档的simhash分别为:
《文本相似度计算_03》
所以该两个文本的汉明距离为3，若n取5，则可以认为这两个文本是相似的。

minhash

minhash推荐阅读博客:
http://www.cnblogs.com/bourne…
文中下面内容将参照该篇博客讲解:

问题背景:
给出N个集合，找到相似的集合对，如何实现呢？直观的方法是比较任意两个集合。那么可以十分精确的找到每一对相似的集合，但是时间复杂度是O(n2)。当N比较小时，比如K级，此算法可以在接受的时间范围内完成，但是如果N变大时，比B级，甚至P级，那么需要的时间是不能够被接受的。

上面的算法虽然效率很低，但是结果会很精确，因为检查了每一对集合。假如，N个集合中只有少数几对集合相似，绝大多数集合都不等呢？那么根据上述算法，绝大多数检测的结果是两个结合不相似，可以说这些检测“浪费了计算时间”。所以，如果能找到一种算法，将大体上相似的集合聚到一起，缩小比对的范围，这样只用检测较少的集合对，就可以找到绝大多数相似的集合对，大幅度减少时间开销。虽然牺牲了一部分精度，但是如果能够将时间大幅度减少，这种算法还是可以接受的。接下来的内容讲解如何使用Minhash和LSH来实现上述目的，在相似的集合较少的情况下，可以在O(n)时间找到大部分相似的集合对。

minhash降维
原始问题的关键在于计算时间太长。所以，如果能够找到一种很好的方法将原始集合压缩成更小的集合，而且又不失去相似性，那么可以缩短计算时间。Minhash可以帮助我们解决这个问题。举个例子，S1 = {a,d,e}，S2 = {c, e}，设全集U = {a,b,c,d,e}。集合可以如下表示：

《文本相似度计算_03》

表1中，列表示集合，行表示元素，值1表示某个集合具有某个值，0则相反（X，Y，Z的意义后面讨论）。Minhash算法大体思路是：采用一种hash函数，将元素的位置均匀打乱，然后将新顺序下每个集合第一个元素作为该集合的特征值。比如哈希函数h1(i) = (i + 1) % 5，其中i为行号。作用于集合S1和S2，得到如下结果：

《文本相似度计算_03》

这时，Minhash(S1) = e，Minhash(S2) = e。也就是说用元素e表示S1，用元素e表示集合S2。那么这样做是否科学呢？进一步，如果Minhash(S1) 等于Minhash(S2)，那么S1是否和S2类似呢？

结论：
P(Minhash(S1) = Minhash(S2)) = Jaccard(S1,S2)

在哈希函数h1均匀分布的情况下，集合S1的Minhash值和集合S2的Minhash值相等的概率等于集合S1与集合S2的Jaccard相似度，下面简单分析一下这个结论。

S1和S2的每一行元素可以分为三类：

X类均为1。比如表2中的第1行，两个集合都有元素e。
Y类一个为1，另一个为0。比如表2中的第2行，表明S1有元素a，而S2没有。
Z类均为0。比如表2中的第3行，两个集合都没有元素b。

这里忽略所有Z类的行，因为此类行对两个集合是否相似没有任何贡献。由于哈希函数将原始行号均匀分布到新的行号，这样可以认为在新的行号排列下，任意一行出现X类的情况的概率为|X|/(|X|+|Y|)。这里为了方便，将任意位置设为第一个出现X类行的行号。所以P(第一个出现X类) = |X|/(|X|+|Y|) = Jac(S1,S2)。这里很重要的一点就是要保证哈希函数可以将数值均匀分布，尽量减少冲撞。

一般而言，会找出一系列的哈希函数，比如h个（h << |U|），为每一个集合计算h次Minhash值，然后用h个Minhash值组成一个摘要来表示当前集合（注意Minhash的值的位置需要保持一致）。举个列子，还是基于上面的例子，现在又有一个哈希函数h2(i) = (i -1)% 5。那么得到如下集合：

《文本相似度计算_03》
所以，现在用摘要表示的原始集合如下：

从表四还可以得到一个结论，令X表示Minhash摘要后的集合对应行相等的次数（比如表4，X=1，因为哈希函数h1情况下，两个集合的minhash相等，h2不等）：
《文本相似度计算_03》
X符合次数为h，概率为Jac(S1,S2)的二项分布。那么期望E(X) = h Jac(S1,S2) = 2 2 / 3 = 1.33。也就是每2个hash计算Minhash摘要，可以期望有1.33元素对应相等。

所以，Minhash在压缩原始集合的情况下，保证了集合的相似度没有被破坏。

LSH-局部敏感哈希
现在有了原始集合的摘要，但是还是没有解决最初的问题，仍然需要遍历所有的集合对,，才能所有相似的集合对，复杂度仍然是O(n2)。所以，接下来描述解决这个问题的核心思想LSH。其基本思路是将相似的集合聚集到一起，减小查找范围，避免比较不相似的集合。仍然是从例子开始，现在有5个集合，计算出对应的Minhash摘要，如下：

《文本相似度计算_03》

上面的集合摘要采用了12个不同的hash函数计算出来，然后分成了B = 4个区间。前面已经分析过，任意两个集合（S1，S2）对应的Minhash值相等的概率r = Jac(S1，S2)。先分析区间1，在这个区间内，P(集合S1等于集合S2) = r3。所以只要S1和S2的Jaccard相似度越高，在区间1内越有可能完成全一致，反过来也一样。那么P(集合S1不等于集合S2) = 1 – r3。现在有4个区间，其他区间与第一个相同，所以P(4个区间上，集合S1都不等于集合S2) = (1 – r3)4。P(4个区间上，至少有一个区间，集合S1等于集合S2) = 1 – (1 – r3)4。这里的概率是一个r的函数，形状犹如一个S型，如下：

《文本相似度计算_03》

如果令区间个数为B，每个区间内的行数为C，那么上面的公式可以形式的表示为：

《文本相似度计算_03》

令r = 0.4，C=3，B = 100。上述公式计算的概率为0.9986585。这表明两个Jaccard相似度为0.4的集合在至少一个区间内冲撞的概率达到了99.9%。根据这一事实，我们只需要选取合适的B和C，和一个冲撞率很低的hash函数，就可以将相似的集合至少在一个区间内冲撞，这样也就达成了本节最开始的目的：将相似的集合放到一起。具体的方法是为B个区间，准备B个hash表，和区间编号一一对应，然后用hash函数将每个区间的部分集合映射到对应hash表里。最后遍历所有的hash表，将冲撞的集合作为候选对象进行比较，找出相识的集合对。整个过程是采用O(n)的时间复杂度，因为B和C均是常量。由于聚到一起的集合相比于整体比较少，所以在这小范围内互相比较的时间开销也可以计算为常量，那么总体的计算时间也是O(n)。

参考资料

http://www.cnblogs.com/bourne…

详细代码见github。

    原文作者：青空栀浅
    原文地址: https://segmentfault.com/a/1190000017471483
    本文转自网络文章，转载此文章仅为分享知识，如有侵权，请联系博主进行删除。