【算法学习】字符串Hash入门

2023年7月21日 286次阅读来源: pengwill97

字符串Hash入门

字符串Hash可以通俗的理解为，把一个字符串转换为一个整数。

如果我们通过某种方法，将字符串转换为一个整数，就可以便的确定某个字符串是否重复出现过，这是最简单的字符串Hash应用情景了。

当然也不难想到，如果有不同的两个字符串同时Hash到一个整数，这样就比较麻烦了。我们希望这个映射是一个单射，所以问题就是如何构造这个Hash函数，使得他们成为一个单射。不用担心，接下来的内容正要讲解。

Hash方法

给定一个字符串 S=s1s2s3..sn S = s 1 s 2 s 3 . . s n ，对字母x，我们规定 idx(x)=x−′a′+1 i d x ( x ) = x − ′ a ′ + 1 。（当然也可以直接用 si s i 的 ASCII A S C I I 值）

自然溢出方法

Hash公式

unsigned long long Hash[n]

hash[i]=hash[i−1]∗p+id(s[i]) h a s h [ i ] = h a s h [ i − 1 ] ∗ p + i d ( s [ i ] )

利用unsigned long long的范围自然溢出，相当于自动对 264−1 2 64 − 1 取模

单Hash方法

Hash公式

hash[i]=(hash[i−1])∗p+idx(s[i]) % mod h a s h [ i ] = ( h a s h [ i − 1 ] ) ∗ p + i d x ( s [ i ] ) % m o d

其中 p p 和 mod m o d 均为质数，且有 p<mod p < m o d 。

对于此种Hash方法，将p和mod尽量取大即可，这种情况下，冲突的概率是很低的。

举例

如取 p=13,mod=101 p = 13 , m o d = 101 ，对字符串 abc a b c 进行Hash
hash[0] = 1
hash[1] = (hash[0] * 13 + 2) % 101 = 15
hash[2] = (hash[1] * 13 + 3) % 101 = 97

这样，我们就认为字符串 abc a b c 当做97，即97就是 abc a b c 的hash值。

双Hash方法

将一个字符串用不同的 mod m o d hash两次，将这两个结果用一个二元组表示，作为Hash结果。

Hash公式

hash1[i]=(hash1[i−1])∗p+idx(s[i]) % mod1 h a s h 1 [ i ] = ( h a s h 1 [ i − 1 ] ) ∗ p + i d x ( s [ i ] ) % m o d 1

hash2[i]=(hash2[i−1])∗p+idx(s[i]) % mod2 h a s h 2 [ i ] = ( h a s h 2 [ i − 1 ] ) ∗ p + i d x ( s [ i ] ) % m o d 2

hash结果为 <hash1[n],hash2[n]> < h a s h 1 [ n ] , h a s h 2 [ n ] >

这种Hash很安全。

获取子串的Hash

如果我们求出一个串的Hash，就可以 O(1) O ( 1 ) 求解其子串的Hash值。
我们先以一个具体的例子来理解。

例子

假设有一 |S|=5 | S | = 5 的字符串，设 Si S i 为第 i i 个字符，其中 1≤i≤5 1 ≤ i ≤ 5 。

根据定义分别求出 hash[i] h a s h [ i ]

hash[1]=s1 h a s h [ 1 ] = s 1
hash[2]=s1∗p+s2 h a s h [ 2 ] = s 1 ∗ p + s 2
hash[3]=s1∗p2+s2∗p+s3 h a s h [ 3 ] = s 1 ∗ p 2 + s 2 ∗ p + s 3
hash[4]=s1∗p3+s2∗p2+s3∗p+s4 h a s h [ 4 ] = s 1 ∗ p 3 + s 2 ∗ p 2 + s 3 ∗ p + s 4
hash[5]=s1∗p4+s2∗p3+s3∗p2+s4∗p+s5 h a s h [ 5 ] = s 1 ∗ p 4 + s 2 ∗ p 3 + s 3 ∗ p 2 + s 4 ∗ p + s 5

现在我们想求 s3s4 s 3 s 4 的hash值，不难得出为 s3∗p+s4 s 3 ∗ p + s 4 ,并且从上面观察，如果看 hash[4]−hash[2] h a s h [ 4 ] − h a s h [ 2 ] 并将结果种带有 s1,s2 s 1 , s 2 系数的项全部消掉，就是所求。但是由于 p p 的阶数，不能直接消掉，所以问题就转化成，将 hash[2] h a s h [ 2 ] 乘一个关于 p p 的系数，在做差的时候将多余项消除，从而得到结果。

不难发现，对应项系数只差一个 p2 p 2 ，而4 – 3 + 1 = 2(待求hash子串下标相减再加一)，这样就不难推导出来此例题的求解式子。

hash[4]−hash[2]∗p4−2+1 h a s h [ 4 ] − h a s h [ 2 ] ∗ p 4 − 2 + 1

至此，通过对上例的归纳，可以得出如下的公式。

公式

若已知一个 |S|=n | S | = n 的字符串的hash值， hash[i],1≤i≤n h a s h [ i ] , 1 ≤ i ≤ n ，其子串 sl..sr,1≤l≤r≤n s l . . s r , 1 ≤ l ≤ r ≤ n 对应的hash值为：

hash=hash[r]−hash[l−1]∗pr−l+1 h a s h = h a s h [ r ] − h a s h [ l − 1 ] ∗ p r − l + 1

考虑到 hash[i] h a s h [ i ] 每次对 p p 取模，进一步得到下面的式子：

hash=(hash[r]−hash[l−1]∗pr−l+1)%MOD h a s h = ( h a s h [ r ] − h a s h [ l − 1 ] ∗ p r − l + 1 ) % M O D

看起来这个式子人畜无害，但是对于取模运算要谨慎再谨慎，注意到括号里面是减法，即有可能是负数，故做如下的修正：

hash=((hash[r]−hash[l−1]∗pr−l+1)%MOD+MOD)%MOD h a s h = ( ( h a s h [ r ] − h a s h [ l − 1 ] ∗ p r − l + 1 ) % M O D + M O D ) % M O D

至此得到求子串hash值公式。

值得一提的是，如果需要反复对子串求解hash值，预处理 p p 的 n n 次方效果更佳。

字符串Hash的应用

题型一

描述

问题：给两个字符串S1，S2，求S2是否是S1的子串，并求S2在S1中出现的次数

数据范围：1=<|S1|，|S2|<=10000

解法

求出S1和S2的Hash值，并且 n2 n 2 的求解出S1所有子串的Hash值，放入map中，查询即可。复杂度 n2logn n 2 l o g n

题型二

描述

问题：给N个单词串，和一个文章串，求每个单词串是否是文章串的子串，并求每个单词在文章中出现的次数。

数据范围：文章串长度：[1,10^5]，N个单词串总长：[1,10^6]

解法

设单词串总长为 |S| | S | ，文章串总长为 |A| | A | 。

此题和第一题做法相同。复杂度 |A|2log|A|+|S| | A | 2 l o g | A | + | S |

题型三

描述

问题：给两个字符串S1,S2，求它们的最长公共子串的长度。

数据范围：1=<|S1|，|S2|<=10^5

解法

将S1的每一个子串都hash成一个整数

将S2的每一个子串都hash成一个整数

两堆整数，相同的配对，并且找到所表示的字符串长度最大的即可。

复杂度： O(|S1|2+|S2|2) O ( | S 1 | 2 + | S 2 | 2 )

PS：为觉得开数组不保险，所以上面的题一和题二都用的map存，这里我也不知道能不能实现 O(1) O ( 1 ) 的存储和查询。

题型四

描述

问题：给一个字符串S，求S的最长回文子串。

比如abcbbabbc的最长回文子串是cbbabbc，bbabb也是回文串，但不是最长的

数据范围： 1＝<|S|<=10^5

解法

先求子串长度位奇数的，再求偶数的。枚举回文子串的中心位置，然后二分子串的长度，直到找到一个该位置的最长回文子串，不断维护长度最大值即可。

复杂度： O(|S|∗log|S|) O ( | S | ∗ l o g | S | )

Hash素数的选取

为了防止冲突，要选择合适的素数，像1e9+7,1e9+9的一些素数，出题人一般会卡一下下，所以尽量选择其他的素数，防止被卡。下面是一些可供选择的素数。
上界和下界指的是离素数最近的 2n 2 n 的值。

lwr(下界)	upr(上界)	%err(冲突率)	prime(素数)
25 2 5	26 2 6	10.416667	53
26 2 6	27 2 7	1.0416670	97
27 2 7	28 2 8	0.520833	193
28 2 8	29 2 9	1.302083	389
29 2 9	210 2 10	0.130208	769
210 2 10	211 2 11	0.455729	1543
211 2 11	212 2 12	0.227865	3079
212 2 12	213 2 13	0.113932	6151
213 2 13	214 2 14	0.008138	12289
214 2 14	215 2 15	0.069173	24593
215 2 15	216 2 16	0.010173	49157
216 2 16	217 2 17	0.013224	98317
217 2 17	218 2 18	0.002543	196613
218 2 18	219 2 19	0.006358	393241
219 2 19	220 2 20	0.000128	786433
220 2 20	221 2 21	0.000318	1572869
221 2 21	222 2 22	0.000350	3145739
222 2 22	223 2 23	0.000207	6291469
223 2 23	224 2 24	0.000040	12582917
224 2 24	225 2 25	0.000075	25165843
225 2 25	226 2 26	0.000010	50331653
226 2 26	227 2 27	0.000023	100663319
227 2 27	228 2 28	0.000009	201326611
228 2 28	229 2 29	0.000001	402653189
229 2 29	230 2 30	0.000011	805306457
230 2 30	231 2 31	0.000000	1610612741

来源：http://planetmath.org/goodhashtableprimes

    原文作者：pengwill97
    原文地址: https://blog.csdn.net/pengwill97/article/details/80879387
    本文转自网络文章，转载此文章仅为分享知识，如有侵权，请联系博主进行删除。