HashMap源码解析一

前言:HashMap的用法是相当的广泛,之前就是用get和put,根本不了解其原理,现在随着工作的需要是必须要了解其原理的。我这里的源码是基于java8来分析的。

java8中的HashMap的结构是有数组、单链表以及红黑树组成的,如果链表的节点个数大于8则分裂为红黑树,如下图:
《HashMap源码解析一》
图片是copy过来的。

HashMap的主要属性如下:

//默认的容量,即默认的数组长度 16
static final int DEFAULT_INITIAL_CAPACITY = 1 << 4;
static final float DEFAULT_LOAD_FACTOR = 0.75f;
//最大的容量,即数组可定义的最大长度 
static final int MAXIMUM_CAPACITY = 1 << 30;
//链表分裂为红黑树的阈值
 static final int TREEIFY_THRESHOLD = 8;
//实际存储的键值对个数
transient int size;
//用于迭代防止结构性破坏的标量
transient int modCount;

transient Node<K,V>[] table;//

table 的类型是Node<K,V>的数组,Node<K,V>继承自Map的Entry<K,V>,Node<K,V>的部分代码如下:

static class Node<K,V> implements Map.Entry<K,V> {
        final int hash;
        final K key;
        V value;
        Node<K,V> next;//当发生hash碰撞是指向下一个节点(Node)

        Node(int hash, K key, V value, Node<K,V> next) {
            this.hash = hash;
            this.key = key;
            this.value = value;
            this.next = next;
        }
        ......
       
    }

下面开始分析常用的api,一般我们都是这样使用HashMap的,如下:

Map<String, String> map = new HashMap<String, String>();
map.put("apple", "1");
map.get("apple");
map.remove("apple");

先来分析put方法:

public V put(K key, V value) {
    return putVal(hash(key), key, value, false, true);
}

其中的hash(String key)代码如下:

static final int hash(Object key) {
int h;
//如果key != null那么将key的hashCode 异或 key的hashCode右移16位
//右移就是将高位补0,这样做的目的就是保持hash值是相对均匀分布的
return (key == null) ? 0 : (h = key.hashCode()) ^ (h >>> 16);
}

putVal的代码如下:

final V putVal(int hash, K key, V value, boolean onlyIfAbsent,
                   boolean evict) {
        Node<K,V>[] tab; Node<K,V> p; int n, i;
        //如果table 为空或者 tab.length = 0 ,那么执行resize()方法,这个方法就是初始化table的,稍后再讲
        if ((tab = table) == null || (n = tab.length) == 0)
            n = (tab = resize()).length;
        //根据键的 hash 值找到该键对应到数组中存储的索引,如果为 null,那么说明此索引位置并没有被占用
        //在该索引位置插入Node
        if ((p = tab[i = (n - 1) & hash]) == null)
            tab[i] = newNode(hash, key, value, null);
        //不为 null,说明此处已经被占用,只需要将构建一个节点插入到这个链表的尾部即可
        else {
            Node<K,V> e; K k;
            //如果两次插入的数据的key的hash值以及key都相等,那么是一次修改操作
            if (p.hash == hash &&
                    ((k = p.key) == key || (key != null && key.equals(k))))
                e = p;
            //如果P是红黑树类型的结点则以红黑树的方式插入
            else if (p instanceof TreeNode)
                e = ((TreeNode<K,V>)p).putTreeVal(this, tab, hash, key, value);

            else {
                //遍历此条链表,将构建一个节点插入到该链表的尾部
                for (int binCount = 0; ; ++binCount) {
                    if ((e = p.next) == null) {
                        p.next = newNode(hash, key, value, null);
                        //如果插入后链表长度大于等于 8 ,将链表裂变成红黑树
                        if (binCount >= TREEIFY_THRESHOLD - 1) // -1 for 1st
                            treeifyBin(tab, hash);
                        break;
                    }
                    //如果两次插入的数据的key的hash值以及key都相等,那么是一次修改操作
                    if (e.hash == hash &&
                            ((k = e.key) == key || (key != null && key.equals(k))))
                        break;
                    p = e;
                }
            }
            if (e != null) { // existing mapping for key
                V oldValue = e.value;
                if (!onlyIfAbsent || oldValue == null)
                    e.value = value;
                //该方法在HashMap的子类LinkedHashMap中实现了,这里为空方法
                afterNodeAccess(e);
                return oldValue;
            }
        }
        ++modCount;
        //如果添加后,数组容量达到阈值,进行扩容
        if (++size > threshold)
            resize();
        //该方法在HashMap的子类LinkedHashMap中实现了,这里为空方法
        afterNodeInsertion(evict);
        return null;
    }

上面虽然注释了,但是大家应该还是不理解的,后面会写例子一步一步进行分析,请耐心的看下出,你也会透彻理解HashMap的。当然了红黑树那一块我就不说了,说不清楚,哈哈。我们接下来看table初始化的方法resize():

final Node<K,V>[] resize() {
        Node<K,V>[] oldTab = table;
        //拿到旧数组的长度
        int oldCap = (oldTab == null) ? 0 : oldTab.length;
        int oldThr = threshold;
        int newCap, newThr = 0;
        //说明旧数组已经被初始化完成了,此处需要给旧数组扩容
        if (oldCap > 0) {
            //极限的限定,达到容量限定的极限将不再扩容
            if (oldCap >= MAXIMUM_CAPACITY) {
                threshold = Integer.MAX_VALUE;
                return oldTab;
            }
            //未达到极限,将数组容量扩大两倍,阈值也扩大两倍
            else if ((newCap = oldCap << 1) < MAXIMUM_CAPACITY &&
                    oldCap >= DEFAULT_INITIAL_CAPACITY)
                newThr = oldThr << 1;
        }
       
        else if (oldThr > 0)
            newCap = oldThr;
            //数组未初始化并且阈值也为0,说明一切都以默认值进行构造
        else {
            newCap = DEFAULT_INITIAL_CAPACITY;
            newThr = (int)(DEFAULT_LOAD_FACTOR * DEFAULT_INITIAL_CAPACITY);
        }
        //这里也是在他偷懒的后续弥补
        //newCap = oldThr 之后并没有计算阈值,所以 newThr = 0
        if (newThr == 0) {
            float ft = (float)newCap * loadFactor;
            newThr = (newCap < MAXIMUM_CAPACITY && ft < (float)MAXIMUM_CAPACITY ?
                    (int)ft : Integer.MAX_VALUE);
        }
        threshold = newThr;

        //根据新的容量初始化一个数组
        Node<K,V>[] newTab = (Node<K,V>[])new Node[newCap];
        table = newTab;
        //旧数组不为 null,这次的 resize 是一次扩容行为
        if (oldTab != null) {
            //将旧数组中的每个节点位置相对静止地拷贝值新数组中
            for (int j = 0; j < oldCap; ++j) {
                Node<K, V> e;
                //获取头结点
                if ((e = oldTab[j]) != null) {
                    oldTab[j] = null;
                    //说明链表或者红黑树只有一个头结点,转移至新表
                    if (e.next == null)
                        newTab[e.hash & (newCap - 1)] = e;
                        //如果 e 是红黑树结点,红黑树分裂,转移至新表
                    else if (e instanceof TreeNode)
                        ((TreeNode<K, V>) e).split(this, newTab, j, oldCap);
                        //这部分是将链表中的各个节点原序地转移至新表中,我们后续会详细通过例子来说明
                    else {
                        Node<K, V> loHead = null, loTail = null;
                        Node<K, V> hiHead = null, hiTail = null;
                        Node<K, V> next;
                        do {
                            next = e.next;
                            if ((e.hash & oldCap) == 0) {
                                if (loTail == null)
                                    loHead = e;
                                else
                                    loTail.next = e;
                                loTail = e;
                            } else {
                                if (hiTail == null)
                                    hiHead = e;
                                else
                                    hiTail.next = e;
                                hiTail = e;
                            }
                        } while ((e = next) != null);
                        if (loTail != null) {
                            loTail.next = null;
                            newTab[j] = loHead;
                        }
                        if (hiTail != null) {
                            hiTail.next = null;
                            newTab[j + oldCap] = hiHead;
                        }
                    }
                }
            }
            return newTab;
        }

下面我们开始以实例来分析了,为了方便说明,我这里的数组长度为4,假设我们要put3个元素,3个元素的key分别为 m,n和t;假设m的计算出来的hash值为5, n的计算出来的hash值为6,t的计算出来的hash值为9,

首先 put 数据key 为m;
由于是第一次put数据,所以会走到resize方法:
第2行 :table赋值给oldTab,由于第一次table未初始化, table = null。
第3行:int oldCap = (oldTab == null) ? 0 : oldTab.length; 由于oldTab = null,所以 oldCap = 0;
第4行:int oldThr = threshold; threshold为赋值所以为0
所以会走到16行的else语句:
newCap = DEFAULT_INITIAL_CAPACITY;//原本是16,我们这里为了方便 值为4
newThr = (int)(DEFAULT_LOAD_FACTOR * DEFAULT_INITIAL_CAPACITY);//原本的阈值为160.75 = 12,现在是 40.75=3;走到第24行
第24行: threshold = newThr;即阈值为4
第26行:Node<>[] newTab = (Node<>[])new Node[newCap]; //newTab 为数组大小为4的Node型数组。
第27行:table = newTab;
第28行:if (oldTab != null) {…},//上面已经分析 oldTab 为null,条件不成立。直接return newTab;
然后回到putVal的方法。

putVal方法分析:

由于第一次put,所以table为null,走到resize()方法后,table的size为4(4是我这里为了方便讲解设置的值,上面有讲到)
第4行:if ((tab = table) == null || (n = tab.length) == 0) //由于table为空 执行第5行
第5行:n = (tab = resize()).length; //在初始化数组后,n = 4
第6行:if ((p = tab[i = (n – 1) & hash]) == null)//我们之前说过了要插入3个数据m、n和t,他们的hash值分别是5,6,9;
先插入m,m的hash值是5 ,由于n=4,(n-1)&hash = 0011 & 0101=1;由于是第一次插入数据,table[1]的位置上没有赋值,所以执行第7行
第7行:tab[i] = newNode(hash, key, value, null);//new 一个Node放到table数组索引为1的位置上。
然后我们看第35行:
第35行: if (++size > threshold) //如的数据大于阈值就调用resize()方法扩容,显然这次if条件不成立。 (之前说了阈值是 4*0.75=3);

接着putkey为n的数据,走到putVal方法的第四行:
第4行:if ((tab = table) == null || (n = tab.length) == 0) //由于之前put数据m的时候,table已经初始化过了,那么直接走到第6行;
第6行:if ((p = tab[i = (n – 1) & hash]) == null)// 之前假设数据n的hash值为6,那么(n-1)&hash = 0011&0110 = 2; 由于table[2]上之前没有存放数据,那么if()的条件成立。走到第7行
第7行:tab[i] = newNode(hash, key, value, null);//new 一个Node放到table数组索引为2的位置上。
第35行: if (++size > threshold) ;//由于size=2,所以if条件不成立,不会进行扩容操作;

最后put数据t,t的hash值之前假设为9.
走到代码第4行。
第4行:if ((tab = table) == null || (n = tab.length) == 0) //由于之前put数据m的时候,table已经初始化过了,那么直接走到第6行;
第6行:if ((p = tab[i = (n – 1) & hash]) == null)// 之前假设数据n的hash值为9,那么(n-1)&hash = 0011&1001 = 1; 由于table[1]上之前已经存放了数据m,所以if条件不成立。这里就是人们常说的发生hash碰撞了,那么走到else中,看第10行:
第10行:if (p.hash == hash &&((k = p.key) == key || (key != null && key.equals(k))))//这里put数据的hash为9,与table[1]的数据m的hash值5是不相等的,那么走到13行:
第13行: else if (p instanceof TreeNode)//这里P的节点不是红黑树类型所以执行第15行的else中去。

我先画张图,表示table表中的数据。

《HashMap源码解析一》

进入for循环:
if ((e = p.next) == null)// p是等于tab[i = (n – 1) & hash]),上面分析(n – 1) & hash = 1,即p指向table[1],如下图:
《HashMap源码解析一》

由于table[1]没有后续节点,所以if ((e = p.next) == null)成立,进入18行:
第18行: p.next = newNode(hash, key, value, null);//就是让p的next指向一个新的节点,新的节点里面的数据就是刚put进来的t,这个是很简单的数据结构的单链表操作。如下图:
《HashMap源码解析一》

最后走到35行:if (++size > threshold)//由于++size=3且threshold=3,所以本次put操作不会产生扩容操作。

假设我们再put一个key 为 r数据,r的hash等于12(二进制 :1100),
会走到:if ((p = tab[i = (n – 1) & hash]) == null) // (n-1)&hash = 0011&1100 = 0,由于table[0]上没有数据,所以if条件成立:
tab[i] = newNode(hash, key, value, null);//将刚put的数据放到table[0]上,如下图,
《HashMap源码解析一》
接着走到35行:
第35行:if (++size > threshold) //size=4> threshold=3,所以进行扩容,即执行resize().

再来看resize()代码:

第1行:Node<,>[] oldTab = table;//将table赋值给oldTab ,table的长度是4
第3行: int oldCap = (oldTab == null) ? 0 : oldTab.length;// oldTab.length = 4
第4行:int oldThr = threshold;// oldThr 等于threshold = 3
第5行:int newCap, newThr = 0;// newCap和newThr 都等于0
第6行:if (oldCap > 0) //oldCap = 4,条件成立,走到7行
第7行:if (oldCap >= MAXIMUM_CAPACITY)// MAXIMUM_CAPACITY = 2的30次方,所以不成立。走到16行else语句
16行:else if ((newCap = oldCap << 1) < MAXIMUM_CAPACITY &&
oldCap >= DEFAULT_INITIAL_CAPACITY)//newCap 等于oldCap 左移1,即newCap = oldCap *2 = 8,我们这里的DEFAULT_INITIAL_CAPACITY默认为4,这是我开始为了讲解简单设定的,本来是16。所以条件成立。
第18行:newThr = oldThr << 1;//newThr = oldThr 左移1,即等于oldThr 2 = 32=6。接着看第24行。
第24行:threshold = newThr;//threshold = 6
第26行:Node<,>[] newTab = (Node<,>[])new Node[newCap];//new 了一个Node型数组,数组的个数为newCap = 8。
第27行:table = newTab;//将table赋值为newTab
第28行:if (oldTab != null)//oldTab 在方法的第一行就赋值了,就是之前个数为4的table,就是上面put了四个数据的table,如上图。
接下来是for循环遍历oldTab 中所有的数据,走到31行
第31行:if ((e = oldTab[j]) != null)//for循环开始j=0,oldTab[j])中存放的key为r的数据,所有不为null,条件成立。走到32行
第32行:oldTab[j] = null;//oldTab[0]=null
第34行: if (e.next == null)//由于oldTab[0]上并未添加其他的数据,所以e.next == null,条件成立。
第35行:newTab[e.hash & (newCap – 1)] = e;// e.hash = 10, newCap = 8 ,e.hash & (newCap – 1) = 1010&0111= 0100 = 2,即将e放到newTab的索引等于2的位置上,如下图:
《HashMap源码解析一》

再for循环 j = 1:
if ((e = oldTab[j]) != null)// 由于oldTab[1]上有key为m的数据,所有条件成立。
第32行:oldTab[j] = null;//oldTab[1]=null
第34行: if (e.next == null)//由于e.next上有key为t的数据,所以条件不成立。
走到36行:else if (e instanceof TreeNode) //由于e不是红黑树所以条件不成立,走到38行的else中:
首先,定义几个变量:
Node<, > loHead = null, loTail = null;
Node<, > hiHead = null, hiTail = null;
Node<, > next;
这个我得用图来表示了,e等于oldTab[1],如下图:
《HashMap源码解析一》
然后执行do …while:如下:
第41行:next = e.next;如下图:
《HashMap源码解析一》
第42行:if ((e.hash & oldCap) == 0) // e.hash&oldCap = 0101&0100= 0100=4,if条件不成立,走到46行else
第46行:if (hiTail == null)//由于hiTail 初始化为null,所以条件成立,走到48行
第47和49行行:hiHead = e;hiTail = e;如下图:
《HashMap源码解析一》

执行 while ((e = next) != null); //将next 赋值给 e,从图上可以看 next 存放的是key为t的数据,所以 while条件成立,继续执行do语句,如下图:
《HashMap源码解析一》

接着执行 do 里面的语句,如下,
next = e.next;//从上图可知 e.next 没有数据了,所以 next = null;
if ((e.hash & oldCap) == 0) // e.hash & oldCap = 1001&0100 = 0,if条件成立,执行下面的语句。
if (loTail == null) //loTail 初始化为null,条件成立,执行如下语句:
loHead = e;和 loTail = e;执行完如下图。
《HashMap源码解析一》

接着执行while ((e = next) != null);//上面 next = null,所以 e = next = null,跳出do…while循环。如下图,e = null了。
《HashMap源码解析一》
第52行 : if (loTail != null)//从上图可知loTail 不为null,条件成立。走如下代码:
loTail.next = null;//loTail的next指针置空
newTab[j] = loHead;//将loHead指向的key为t的数据放到newTab[1]里面,如下图:
《HashMap源码解析一》

接着执行如下语句:
if (hiTail != null)//从上面的图我们可以看出 hiTail 指向key为m的结点,所以if条件成立,执行如下语句:
hiTail.next = null;//hiTail的next指针置空
newTab[j + oldCap] = hiHead;//将hiHead执行的数据放入newTab[1+4]中,如下图:
《HashMap源码解析一》

接着执行 j = 2:
if ((e = oldTab[j]) != null)//oldTab[2])里面存放的是key为n的数据,所以if条件成立,且e 执行oldTab[2])的元素,如下图:
《HashMap源码解析一》

接着执行: oldTab[j] = null;//将oldTab[2]置空,然后执行:
if (e.next == null) //因为e指向的数据oldTab[2]并未发生hash碰撞,所以没有形成单链表,所以e.next = null,条件成立:
newTab[e.hash & (newCap – 1)] = e; // newCap = 8, e.hash & (newCap – 1) = 0110& 0111 = 0110 = 6;即将e放到newTab[6]中,如下图:
《HashMap源码解析一》

到这里,HashMap的put方法以及分析完了,其中还包含了扩容的方法。由于篇幅有限,remove(key),以及get(key)的方法下篇再讲,然后接着讲LinkHashMap以及LruCache的实现。

    原文作者:小猪快跑22
    原文地址: https://blog.csdn.net/zhujiangtaotaise/article/details/79046604
    本文转自网络文章,转载此文章仅为分享知识,如有侵权,请联系博主进行删除。
点赞