Java数据结构和算法(一)散列表

Java数据结构和算法(一)散列表

数据结构与算法目录(https://www.cnblogs.com/binarylei/p/10115867.html)

散列表(Hash table) 也叫哈希表,是根据关键码值(Key value)而直接进行访问的数据结构。也就是说,它通过把关键码值映射到表中一个位置来访问记录,以加快查找的速度。这个映射函数叫做 散列函数 ,存放记录的数组叫做 散列表。

  • 数组的特点是:寻址容易,插入和删除困难;
  • 链表的特点是:寻址困难,插入和删除容易。
  • 散列表的特点是:结合了两者的优势,寻址容易,插入删除也容易。

散列表 Hash table(key,value) 就是把 Key 通过一个固定的算法函数即散列函数转换成一个整型数字,然后就将该数字对数组长度进行取余,取余结果就当作数组的下标,将 value 存储在以该数字为下标的数组空间里。通过散列算法,变换成固定长度的输出,该输出就是散列值。这种转换是一种压缩映射,简单的说就是一种将任意长度的消息压缩到某一固定长度的消息摘要的函数。

而当使用哈希表进行查询的时候,就是再次使用哈希函数将 key 转换为对应的数组下标,并定位到该空间获取 value,如此一来,就可以充分利用到数组的定位性能进行数据定位。

一、散列函数

1.1 直接定址法

关键码本身和地址之间存在某个线性函数关系时,散列函数取为关键码的线性函数,即:H(key)=a*key+b,a、b均为常数。
这样的散列函数优点就是简单、均匀,也不会产生冲突,但问题是这需要事先知道关键字的分布情况,适合査找表较小且连续的情况。由于这样的限制,在现实应用中虽然简单,但却并不常用。

1.2 余数法

通过选择适当的正整数 p,按计算公式 H(K) = K mod p 来计算关键码K的散列地址。

若关键码个数为 n,散列表表长为 m(一般 m >= n),通常选 p 为小于或等于表长 m 的最大素数或不包含小于 20 的质因子的合数,一般也要求 p >= n。

这种方法计算最简单,也不需根据全部关键码的分布情况研究如何从中析取数据,最常用。

1.3 平方取中法

将关键码 K 平方,取 K^2 中间几位作为其散列地址 H(K) 的值。

假如有以下关键字序列 {421,423,436},平方之后的结果为 {177241,178929,190096},那么可以取 {72,89,00} 作为 Hash 地址。

1.4 随机数法

采用随机函数作为散列函数 H(Key) = random(Key),其中 random 为随机函数。当关键码长度不等时,采用该方法较恰当。

二、Hash 冲突

2.1 缓冲区

建立一个缓冲区,把凡是 Hash(key) 重复的元素放到缓冲区中。当我通过 key 查找时,发现找的不对,就在缓冲区里找。

2.2 开放定址法

  • 线性探测:从发生冲突位置的下一个位置开始寻找空的散列地址。线性探测会导致数据集中到某一块区域。
  • 二次探测:从发生冲突位置的 1, 2^2, 3^2, 4^2, 5^2 …
  • 再哈希:

2.3 拉链法

具体的关键字列表为(19,14,23,01,68,20,84,27,55,11,10,79),则散列函数为 H(key) = key MOD 13。则采用除留余数法和拉链法后得到的预想结果应该为:

《Java数据结构和算法(一)散列表》

每天用心记录一点点。内容也许不重要,但习惯很重要!

    原文作者:算法小白
    原文地址: https://www.cnblogs.com/binarylei/p/10116703.html
    本文转自网络文章,转载此文章仅为分享知识,如有侵权,请联系博主进行删除。
点赞