详解哈希表查找

转自http://blog.csdn.net/xiaotan2011929/article/details/61647556

哈希表查找

  • 定义
  • 基本概念
  • 实现方法

1、定义

哈希表查找又叫散列表查找,通过查找关键字不需要比较就可以获得需要记录的存储位置,它是通过在记录的存储位置和它的关键字之间建立一个确定的对应关系f,使得每个关键字key对应一个存储位置f(key)。即: 
—存储位置=f(关键字),其中f为哈希函数。

1、哈希表最适合的求解问题是查找与给定值相等的记录。

2、哈希查找不适合同样的关键字对应多条记录的情况,如使用关键字“男”去查找某个同学。

3、不适合范围查找,比如查找班级18~22岁的同学。

2、基本概念

  • 1、哈希函数的构造方法

怎么样的才算是好的哈希函数?

1、计算简单。哈希函数的计算时间(指的是产生地址的时间),不应该超过其他查找技术与关键字比较的时间。 
2、 地址分布均匀。尽量让哈希地址均匀分布在存储空间中,这样可以使空间有效的利用。

(1)直接定址法

我们可以去关键字的某个线性函数的值作为哈希地址,如下所示:

f(key)= a*key + b (其中a,b均为常数)

这种哈希函数优点是比较简单、均匀,也不会产生冲突,但是需要事先知道关键字的分布情况,适合查找表比较小且连续的情况。在实际中并不常用。
  • 1

(2)数字分析法

可以使用关键字的一部分来计算哈希存储的位置,比如手机号码的后几位(或者反转、左移右移等变换)。

《详解哈希表查找》

通常适用于处理关键字位数比较大的情况,如果事先知道关键字的分布且关键字的若干位分布均匀,就可以考虑用这种方法。
  • 1

(3)除留余数法

这是最为常用的构造哈希函数的方法,对于哈希表长度为m的哈希函数为:

f(key)=key mod p (p<=m)

mod是取模(求余数)的意思。事实上,如果p选得不好,就很容易出现同义冲突的情况:

《详解哈希表查找》

如上图所示,选择p=11,就会出现key=12、144的冲突。

根据经验,若哈希表表长为m,通常p为小于或者等于表长的最小质数或不包含小于20质因子的合数。
  • 1
  • 2、处理冲突的方法

从刚才的除留余数法可以看出,设计再好的哈希函数也不可能完全避免冲突(key1!=key2,但是f(key1)=f(key2)),下面介绍几种常用的避免冲突方法。

(1)开放定址法

该方法是一旦发生冲突,就去寻找下一个空的哈希地址,只要哈希表足够大,空的哈希地址总能找到,并将其记录存入。

fi(key)=(f(key)+di) mod m (di=1,2,3……m-1)

二次探测法:

fi(key)=(f(key)+di) mod m (di=1^2, -1^2, 2^2, -2^2……q^2, -q^2, q<=m/2)

增加平方项,主要是为了不让关键字都集中在某一块区域,避免不同的关键字争夺一个地址的情况。
  • 1

随机探测法:

fi(key)=(f(key)+di) mod m (di是一个随机数列)

di使用随机函数计算而来,是前面方法的改进。
  • 1

(2)链地址法

将所有关键字为同义词的记录存储在一个单链表中,在哈希表中只存所有同义词子表的指针。

《详解哈希表查找》

如上图所示,取12为除数,进行除留余数法,无论存在多少冲突,都只是在当前位置给单链表增加节点而已。

3、实现方法

  • 1、首先定义一些哈希表的结构,以及一些相关的常数。
#define SUCCESS 1
#define UNSUCCESS 0
#define HASHSIZE 12 //定义哈希表长为数组的长度
#define NULLKEY -32768
typedef struct
{
    int *elem;  //数据元素存储的基址,动态分配数组
    int count;

}HashTable;
int m = 0;
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7
  • 8
  • 9
  • 10
  • 11
  • 2、对哈希表进行初始化
Status InitHashTable(HashTable *H)
{
    int i;
    m = HASHSIZE;
    H->count = m;
    H->elem = (int *)malloc(m*sizeof(int));
    for (i = 0; i < m; i++)
        H->elem[i] = NULLKEY;
    return OK;

}
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7
  • 8
  • 9
  • 10
  • 11
  • 3、定义哈希函数(为插入时计算地址),这里可以根据不同的情况更换算法
int Hash(int key)
{
    return key % m; //这里使用的是除留余数法
}
  • 1
  • 2
  • 3
  • 4
  • 4、对哈希表进行插入操作
void InsertHash(HashTable *H, int key)
{
    int addr = Hash(key); //根据关键字求取地址
    while (H->elem[addr] != NULLKEY) //如果不为空,有冲突出现
        addr = (addr + 1) % m; //这里使用开放定址法的线性探测

    H->elem[addr] = key; //直到有空位后插入
}
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7
  • 8
  • 5、通过哈希表进行关键字的查找过程,如下所示
Status SearchHash(HashTable H, int key, int *addr)
{
    *addr = Hash(key);  //求取哈希地址
    while (H.elem[*addr] != key) //如果不为空,则存在冲突
    {
        *addr = (*addr + 1) % m;  //开发定址法的线性探测

        if (H.elem[*addr] == NULLKEY || *addr == Hash(key))
            return UNSUCCESS; //关键字不存在
    }
    return SUCCESS; //查找成功返回
}
点赞