集合小记

2023年1月5日 397次阅读来源: 算法小白

List

　　List 元素是有序的、可重复，实现List接口的集合主要有：ArrayList、LinkedList、Vector、Stack。

　　ArrayList：动态数组；默认容量为10,每次增加元素时会进行容量检查,当容量到达size-1时进行扩容(add(E e)中先调用了ensureCapacity(size+1)方法，之后将元素的索引赋给elementData[size]，而后size自增)，扩容0.5倍+1，如 ArrayList的容量为10，一次扩容后是容量为16；非同步，查询速度快，擅长于随机访问( size、isEmpty、get、set、iterator 和 listIterator )；线程安全的arraylist:Collections.synchronizedList(List l)函数返回一个线程安全的ArrayList类(synchronized代码块)，也可以使用concurrent并发包下的CopyOnWriteArrayList类(add、remove方法：final ReentrantLock lock = this.lock;lock.lock();)。

　　LinkedList：双向链表；非同步，通过较低的代价在List中进行插入和删除操作(get，remove，insert)(prev，next)。

　　Vector：数组；默认容量为10，加载因子为1：即当元素个数超过容量长度时，进行扩容扩容增量：原容量的1倍，如 Vector的容量为10，一次扩容后是容量为20；同步(源代码中Vector的成员方法都加了synchronized)。

　　Stack：Stack继承自Vector(基本的push和pop 方法，还有peek方法得到栈顶的元素，empty方法测试堆栈是否为空，search方法检测一个元素在堆栈中的位置)。

Set

　　Set是一种不包括重复元素的Collection，实现了Set接口的集合有：EnumSet、HashSet、TreeSet。

　　EnumSet：是枚举的专用Set。所有的元素都是枚举类型。

　　HashSet：堪称查询速度最快的集合，底层实现是一个HashMap（保存数据）(HashSet所有的构造都是构造出一个新的HashMap)，实现Set接口，内部以HashCode来实现的。它内部元素的顺序是由哈希码来决定的，所以它不保证set 的迭代顺序；特别是它不保证该顺序恒久不变；默认初始容量为16，加载因子为0.75，扩容增量：原容量的1倍；线程不安全，存取速度快。

　　TreeSet： 基于TreeMap，内部以TreeMap来实现。它是使用元素的自然顺序对元素进行排序，或者根据创建Set 时提供的Comparator 进行排序，具体取决于使用的构造方法。

Map

　　Map是一个双列集合，没有继承Collection，实现map的有：HashMap、TreeMap、HashTable、Properties、EnumMap。

　　HashMap：以哈希表数据结构实现，查找对象时通过哈希函数计算其位置，它是为快速查询而设计的，其内部定义了一个hash表数组（Entry[] table），元素会通过哈希转换函数将元素的哈希地址转换成数组中存放的索引，如果有冲突，则使用散列链表的形式(JDK8 中哈希冲突过多，链表会转红黑树)将所有相同哈希地址的元素串起来(冲突的节点放在链表的最下面)，通过查看HashMap.Entry的源码它是一个单链表结构(数组(散列桶)与链表的组合体)；默认初始容量为16，加载因子为0.75，扩容增量：原容量的1倍；线程不安全，Collections类中存在一个静态方法：synchronizedMap()，该方法创建了一个线程安全的Map对象；基于AbstractMap;允许存在一个为null的key和任意个为null的value( 当HashMap遇到为null的key时，它会调用putForNullKey方法来进行处理。对于value没有进行任何处理，只要是对象都可以)。

　　TreeMap：键以某种排序规则排序，内部以red-black（红-黑）树数据结构实现，实现了SortedMap接口。

　　HashTable：也是以哈希表数据结构实现的，解决冲突时与HashMap也一样也是采用了散列链表的形式；线程安全(synchronized方法);基于Dictionary类;key和value都不允许为null。

Queue

　　队列，它主要分为两大类，一类是阻塞式队列，队列满了以后再插入元素则会抛出异常，主要包括ArrayBlockQueue、PriorityBlockingQueue、LinkedBlockingQueue。另一种队列则是双端队列，支持在头、尾两端插入和移除元素，主要包括：ArrayDeque、LinkedBlockingDeque、LinkedList。

小结：

对List的选择：

对于随机查询与迭代遍历操作，数组比所有的容器都要快。所以在随机访问中一般使用ArrayList。
LinkedList使用双向链表对元素的增加和删除提供了非常好的支持，而ArrayList执行增加和删除元素需要进行元素位移。
对于Vector而已，我们一般都是避免使用。
将ArrayList当做首选，毕竟对于集合元素而已我们都是进行遍历，只有当程序的性能因为List的频繁插入和删除而降低时，再考虑LinkedList。

对Set的选择：

HashSet由于使用HashCode实现，所以在某种程度上来说它的性能永远比TreeSet要好，尤其是进行增加和查找操作。
虽然TreeSet没有HashSet性能好，但是由于它可以维持元素的排序，所以它还是存在用武之地的。

对Map的选择：

HashMap与HashSet同样，支持快速查询。虽然HashTable速度的速度也不慢，但是在HashMap面前还是稍微慢了些，所以HashMap在查询方面可以取代HashTable。
由于TreeMap需要维持内部元素的顺序，所以它通常要比HashMap和HashTable慢。

解決hash沖突
　　开放定址法、拉链法

hash表解決沖突
　　开放定址法、再哈希法、链地址法、建立公共溢出区

并发包中的线程安全的集合容器:

　　ConcurrentMap(线程安全的hashMap，key、value不允许为null)，默认16个segment的数组，每个segment中实现就是hashMap了，通过hash定位segment。put操作是在segment层上加锁的，这样可以减少并发的冲突；读操作大多数情况下无锁操作（仅仅找到的hashentry对应的对象为null时，有锁操作）。

　　CopyOnWriteArrayList,线程安全，读操作时无锁的ArrayList；在写时，copy一个ArrayList，写完成后，指针指向新的对象。

　　CopyOnWriteArraySet,基于CopyOnWriteArrayList实现。
　　ArrayBlockQueue,基于数组，FIFO,线程安全的集合类，容量可以限制。

ConcurrentHashMap

　　jdk1.7中采用 Segment + HashEntry 的方式进行实现， Segment大小默认为16
　　场景：线程 A和线程B同时执行相同 Segment 对象的
　　put 方法
　　1. 线程A执行 tryLock() 方法成功获取锁，则把 HashEntry 对象插入到相应的位置；
　　2. 线程B获取锁失败，则执行 scanAndLockForPut() 方法，在 scanAndLockForPut 方法中，会通过重复执行 `tryLock() 方法尝试获取锁，在多处理器环境下，重复次数为64，单处理器重复次数为1，当执行 tryLock() 方法的次数超过上限时，则执行 lock() 方法挂起线程B；
　　3. 当线程A执行完插入操作时，会通过 unlock() 方法释放锁，接着唤醒线程B继续执行；

　　size计算：先采用不加锁的方式，连续计算元素的个数，最多计算3次：
　　1. 如果前后两次计算结果相同，则说明计算出来的元素个数是准确的；
　　2. 如果前后两次计算结果都不同，则给每个 Segment 进行加锁，再计算一次元素的个数；

　　1.8中放弃了 Segment 臃肿的设计，取而代之的是采用Node+CAS+ Synchronized 来保证并发安全进行实现，只有在执行第一次put方法时才会调用 initTable() 初始化Node数组
　　当执行 put 方法插入数据时，根据key的hash值，在 Node 数组中找到相应的位置，实现如下：
　　1. 如果相应位置的 Node 还未初始化，则通过CAS插入相应的数据；
　　2. 如果相应位置的 Node 不为空，且当前该节点不处于移动状态，则对该节点加 synchronized 锁，如果该节点的 hash 不小于0，则遍历链表更新节点或插入新节点；
　　3. 如果该节点是 TreeBin 类型的节点，说明是红黑树结构，则通过 putTreeVal 方法往红黑树中插入节点；
　　4. 如果 binCount 不为0，说明 put 操作对数据产生了影响，如果当前链表的个数达到8个，则通过 treeifyBin 方法转化为红黑树，如果 oldVal 不为空，说明是一次更新操作，没有对元素个数产生影响，则直接返回旧值；
　　5. 如果插入的是一个新节点，则执行 addCount() 方法尝试更新元素个数 baseCount ；

　　size实现
　　1.8中使用一个 volatile 类型的变量 baseCount 记录元素的个数，当插入新数据或则删除数据时，会通过 addCount() 方法更新 baseCount ，实现如下：
　　1. 初始化时 counterCells 为空，在并发量很高时，如果存在两个线程同时执行 CAS 修改 baseCount 值，则失败的线程会继续执行方法体中的逻辑，使用 CounterCell 记录元素个数的变化；
　　2. 如果 CounterCell 数组 counterCells 为空，调用 fullAddCount() 方法进行初始化，并插入对应的记录数，通过 CAS 设置cellsBusy字段，只有设置成功的线程才能初始化 CounterCell 数组，实现如下：
　　3. 如果通过 CAS 设置cellsBusy字段失败的话，则继续尝试通过 CAS 修改 baseCount 字段，如果修改 baseCount 字段成功的话，就退出循环，否则继续循环插入 CounterCell 对象；
　　所以在1.8中的 size 实现比1.7简单多，因为元素个数保存 baseCount 中，部分元素的变化个数保存在 CounterCell 数组中，实现如下：
通过累加 baseCount 和 CounterCell 数组中的数量，即可得到元素的总个数；

CAS

　　要实现无锁（lock-free）的非阻塞算法有多种实现方法，其中 CAS（比较与交换，Compare and swap）是一种有名的无锁算法。
　　CAS有3个操作数，内存值V，旧的预期值A，要修改的新值B。当且仅当预期值A和内存值V相同时，将内存值V修改为B，否则什么都不做。

    原文作者：算法小白
    原文地址: https://segmentfault.com/a/1190000009464927
    本文转自网络文章，转载此文章仅为分享知识，如有侵权，请联系博主进行删除。