java.util.BitSet 类分析
一些概念:
一些逻辑上的位概念: 1,10 , 100 以上为 左移动<<
掩码 经常作为位预算中,通过与或者是 异或操作来获取所需要的值,最常见的如 子网掩码 255.255.255.0 通过最后一个8位的0x00来讲网内IP确定下来
使用long作为 一个单元
一个单元中的地址位数为 6 ,2的6次方为64 也就是所有的 移位 操作使用该数值表示64的计算操作
总计64 bit可以进行使用
同时所需的bit索引 掩码为 64-1 = 63
WORD_MASK 一个字的完整掩码 64位全为1的long
底层数据使用 long[] 的形式进行存储:bits 索引下标使用 i/64确定数组的位置,在通过i%64来确定bit的元素内位置
逻辑单元使用大小:unitsInUse
BitSet 构造函数:
无参数构造函数 默认使用 64位 作为初始化参数 调用有参数的构造函数
而有参数的 构造函数通过 /64的方法确定数组的长度(实际底层都是采用移位计算,向右移动6位)
为了避免计算余数的操作,都默认在原来计算出的数组长度上 +1 (能很好的避免,传入为0的情况)
unitIndex 单元下标计算:
输入 位的下标 ,通过/64的操作来确认
bit 获取单元内的掩码
通常的思路是i%64 获取位数t,然后 构造一个 只有一个t位为1的数值
1L<<(63&i)
也就是 获取 i的低六位的数值,注意这里的细节:63&i已经获取到了i%64的值,通过移位(1L<<)的操作来获取到
具体单元内值的掩码
recalculateUnitsInUse 重新计算逻辑单元数
通过从大到小的方法,判断单元内的值 不为0 的情况
然后将以不为0的下标+1的方法重新计算unitsInUse 逻辑单元使用数
ensureCapacity 重新扩大底层单元数目
通过获取当前的大小*2 和传入的参数unitsRequired 所需单元中的最大值
作为新的底层数组的大小,然后重新实例化,再复制数据,同时废弃原来的数组
(这个函数,以及高度体现了,其类不可并发操作的原因,其复制和重新设定大小的时候,没有进行必要的锁定)
flip 针对具体某一位进行补码操作
获取单元下标,获取单元内掩码
判读unitsInUse 逻辑使用单元是否足够:
不足-》 调用ensureCapacity 扩大逻辑单元 ,使用掩码 进行异或 ,重新设定新的逻辑单元使用数
足-》 先使用掩码 进行异或 ,如果发现 逻辑使用单元下的数据单元最后一个单元为空(即为0) 则调用 recalculateUnitsInUse 重新计算逻辑单元个数
使用包括fromIndex 和 toIndex版本的 flip
同样的需要进行如下操作:
确保逻辑单元个数足够,根据toIndex计算得到 最后一个逻辑单元下标,来获取最大需要的逻辑单元数
判读 from 和to 是否在同一逻辑单元内:
如果是-》 获取两者的单元内位掩码 ,获取差值 之后 与 逻辑单元进行异或 , 同样在最后判读最后一个单元是否为空,(进行逻辑使用单元的优化)
如果不是-》面对跨单元的情况, 需要改变的地方有三个:
from端的 左边所有位(包括自己),
中间段 所有的单元
to端的 右边所有位
同时继续重新设定新的逻辑单元使用数
bitsRightOf 获取64位的 中指定位的所有右边为1的掩码
这里对于指定为是0的 直接返回 整个字的掩码 。不进行移位(优化)
bitsLeftOf 获取64位的 中指定为的所有左边为1的掩码
set 设定指定位 为true
非零判断
确定单元下标
判断逻辑使用单元是否足够,不够使用ensureCapacity 进行扩充
使用逻辑单元内的值 和 指定位的 掩码进行 或操作
对于另外一个可以设定值的版本 bitIndex value
如果是true调用 非参数的版本
如果是false调用 clear的实现
对于有from 和 to端的版本
采用类似于flip的from to的算法,只是将原来的异或运算改成了 或运算
clear 设定指定位 为false
与set类似,只是将 位计算改为 指定位的掩码取反然后相与计算方法
bits[unitIndex] &= ~bit(bitIndex);
针对from to端 的采用类似 flip上的结构,只是计算方法使用 取反相与的方法
clear 无参数版本
将所有底层的逻辑使用单元的值设定为0
get bitIndex 获取指定位的值
通过先找单元下标,再找单元内位掩码,通过掩码和当前单元的与运算的结果来决定
当前指定位的值, =0 返回 false , !=0 返回true
BitSet get(int fromIndex, int toIndex) 获取指定范围内的二进制集合
先进行了范围的判断包括:from>0 ,to>0 , from>to
如果长度 小于 from 或者 from == to 则直接返回一个空的
如果对于逻辑长度<to情况,直接将 to设定为 逻辑长度
通过to – from 获取需要实例化的 BitSet的大小
(to-from+63)/64 获取到需要复制的单元的个数
针对非最后一个单元的数据的复制:
假定from的 单元内偏移为x , 则偏移之后的剩余为64-x , to的单元内偏移为 y
复制的时候 假定需要复制的单元以此编号为 1,2,3
则不难看出复制的规则如下:
[1](64-x)+[2]x
[2](64-x)+[3]x
…
类推
在实现上 通过先将前一个单元的64-x位和第二个单元的x为进行高地位相与合并
实现上可以通过 单元数据的>>>x 第二个单元数据<<(64-x)的方法
而针对最后一个需要复制的单元需要判断的条件为:
是否 (64-x单元内偏移) + y单元内偏移 <64 (程序中根据判断 基于位计算获取的单元数w 是否和 基于单元的单元数c是否相等,当 出现前面的条件时候 c=w+1)
如果是:直接获取 to右边所有的数据再通过向右移动from的位数的位数来获取最后的值(由于最后一个单元的x位已经作为上一个单元的复制中使用,将上面公式)
如果不是:则获取倒数第二个单元的64-X (M)和最后一个单元的 to以内的数据(N)进行合并,
相应的操作就是 M>>>x|N<<(64-x)
对于是否 (64-x单元内偏移) + y单元内偏移 <64 (程序中根据判断 基于位计算获取的单元数w 是否和 基于单元的单元数c是否相等,当 出现前面的条件时候 c=w+1) 的验证:
假定 x=60+64M y=20+64(M+L)
通过位计算的单元数 (y-x+63)/64 = (24+64L)/64 = L
通过基于单元位置计算的 x 为 M+1 y为M+L+1 两者之差为 L+1
由上可见当 y的单元内偏移量 小于 x的单元内偏移量 是才会出现
getBits (int j)
获取指定单元内的值
如果j<unitsInUse 逻辑使用单元 直接返回 单元内的值 , 要不然返回 0
nextSetBit int(from)
从指定位置获取到 第一个为true的位位置
获取from所在的单元u,以及from所在的单元内偏移x(临时变量),将单元内的数据>>x 获取到实际需要测试的值 ,如果实际需要测试的值为0 设定x=0
接着是向后寻找 非0逻辑单元 ,同时修改u表示检索的当前单元
如果直到最后一个单元 还是 0则返回-1
通过调用trailingZeroCnt 确定非0单元内的,从低位到高位的连续0的个数n
最后返回 (64u+n+x)
注:这里+x是为了避免,由于在本单元内找到1,要加上单元内的因为移位操作而丢失的位数
trailingZeroCnt long val
从尾部寻找连续0的个数,直到找到1停止
核心思想:采用8位 ,8位的顺序从低到高的寻找, 通过获取 8位的值,通过查表方法获取 连续0的个数
具体的表是一个一元数组,包括256个数字
在实现上 JDK中采用了 恶心的, 8次的调用,(为什么不采用一个for 里面包一下)
具体的表可以查看源码,可以肯定的 对于奇数肯定是0
nextClearBit fromIndex
从from的位置找到第一个false
先确定from所在的单元 u
如果单元大于逻辑使用单元数 ,直接返回 from
对所在单元进行向右n移位获取实际要判断的位
获取需要判断的from 之后,也就是头 的位 判断是否存在 0 (这里将找0 分为 1.在同单元,2.在之后的单元,3.所有单元都没有)
如果存在 0(通过和字掩码的移位的值进行判断), 直接通过对 移位后的单元去反调用 trailingZeroCnt ,获取到 连续1的个数 x
那么最后的结果就是 64u+n+x
如果不存在 0 , 就需要向后找,直到找到一个包含0的单元(通过和字掩码进行比较) ,同时更新 临时变量 u,标记检索的单元下标
如果直到到了最后的逻辑单元还没有找到符合以上要求的单元,则返回 length() 也是就bitSet的长度
找到了一个符合的包含0的逻辑单元之后
这里进行了一个优化:如果查找到的u单元值为0 ,直接返回 64u (注意源码中还需要 + n,这里是为了包括在 和from 同一个单元的情况,而且刚好,from(包括自己)后面全是0的情况)
计算逻辑同上面的方法一致,单元值取反 trailingZeroCnt ,找到连续1的个数 x
最后的结果值 64u+x ,(在实现上,源码还加上了已经对非同一单元已经标记为0的n)
注意: 该函数中的 单元内右移动采用了,符号右移,也就说高位补1,这里之所以没有影响是因为我们要找的0 ,所以补1 是正确的,不过对于 WORD_MASK >> testIndex 字节掩码的符号右移,我觉得是个BUG,没有意义
length
获取集合的实际大小(根据最后一个逻辑单元内的最高设定为true的值的位置决定的)
首先判断逻辑使用单元是否为0 ,如果是0 ,直接返回 0
这里的计算方法为:
获取最后一个单元的数据,通过逻辑使用大小n的方法
通过先找高32位,再找低32位的方法
如果高位为0 直接 结果为 64(n-1)+ bitLen(低32位)(这里代码采用了强制转化,由于高32位为0,不会出现值溢出的可能)
如果高位不为0 结果为 32 + bitLen(高32位)
bitLen
获取 有效的位数(也就是从尾到头的找1的位置最大值)
这里主要用到了2分查找的方法:
深度5,平均5次值比较,最坏的情况为: 0 和 负数 由于两者 中如果是负数则最高位 是1 ,表示为 32 的长度 。而0 则为0
16
8
4
2
1
isEmpty 是否为空
通过和逻辑使用数 进行比较,如果为 0,表示为空
intersects
如果指定的 BitSet 中有设置为 true 的位,并且在此 BitSet 中也将其设置为 true,则返回 ture。
有就是从两个bitset的有效位开始,比较 所有位 相与 是否全为 0
如果全为0 表示 则返回false
cardinality 返回设定true的个数
通过遍历所有的逻辑使用单元,通过调用bitCount 获取单元内的true个数,最后对结果累加
bitCount(long val)
1010101….1 ,这里主要采用的是移位归并的方法, 核心思路就是将X区间内的1个数直接放到X的区间内
首先是 1 到 2 的归并 将所有的 相连两位中的1的个数 存到到 其两位的区间内
例如
1101 -》 1001 这是归并之后的结果 计算的方法是: 设定原来的位为abcd 将 0b0d 和 0a0c 进行计算 统计1 的个数
用数理知识很容易理解到
00 -》 00
01 -》 01
10 -》 01
11 -》 10
接着是 2 到 4 的归并 abcdefgh 将 00cd00gh 和 00ab00ef相加 得到的个数存到到 4位的字节中
以此类推
知道 32 到64 的归并
算法的思路是如此,具体的实现,可以有很多优化的细节,可以见网上的介绍 Hamming weight
and 将传入的集合 B 和当前集合 A 进行与运算
首先 判断集合A,B是否为同一个对象 如果是不计算
接着 获取A,B集合中最小的逻辑单元数 C
接着 对C范围内的单元进行 与运算
最后 大于A集合中不在C范围内的单元(大于C)的单元全部设定为 0
判断A集合中的最后单元是否为0 ,如果是则重新计算逻辑使用单元数
or 将传入的集合 B 和当前集合 A 进行或运算
首先 判断集合A,B是否为同一个对象 如果是不计算
接着 将当前A实际使用单元长度 >= 传入的集合B逻辑使用单元长度
接着 去两个集合中最小的 单元数 进行 或运算
最后 如果传入的集合大 将剩余的数据直接复制到当前集合内 ,
如果 B逻辑使用单元数 大于 A逻辑使用单元同时将 A的逻辑使用大小设定为B的逻辑使用大小
xor 异或计算 传入集合B ,本集合A
如果 A逻辑使用单元数大于B的逻辑使用单元数
采用B的逻辑使用单元数,对里面的树进行异或操作
如果 B的逻辑使用单元数大于A的逻辑使用单元数
设定A的逻辑大小和B一样,对原来A大小区域内的数据进行异或运算
最后将B中多出来的区域数据直接复制到A中
andNot 传入集合B
将 A中的位&=~B 来计算,对于超出的位 不进行计算,无论是 传入的还是集合中的
hashCode
10011010010
根据如下算法获得
public int hashCode() {
long h = 1234;
for (int i = words.length; –i >= 0; ) {
h ^= words[i] * (i + 1);
}
return (int)((h >> 32) ^ h);
}
size
集合中的实际位总数,通过存储单元长度*64来获取
equals
1.先比对类型
2.比较内存地址
3.比对其中的数据,
根据两者的最小有效单元数进行比较
再根据多出来的单元内是否都为0 ,来确定
clone 复制对象实例,以及其中的数据
readObject
覆盖了默认的序列化函数,用来对象反序列化时候的 重新计算 需要的逻辑使用单元数。
toString
计算出所有的位数,通过 逻辑使用单元数 unitsInUse * 64
通过get的方法 获取指定位中的值,
如果是true (1)
最后 调用 StringBuffer 将其位数下标加到 字符串中
注:这个函数 可以进行优化,通过实际遍历 有效单元内的值,而不是调用get的方法,或许是 这个函数不常用
写在后面
主要能学到一些基本的位操作的技巧 比如对于 mod (2的N次)的操作,可以通过直接进行掩码上的与操作
还有对于 2的倍数的 乘除可以通过移位进行优化 还有针对 >> 有符号右移动 >>> 无符号右移动 的区别针对负数的情况, 是采取高位补1的
这是基础的在内存中 对于负数的存储的知识 对其原值进行取反再加1 也就是 补码
还有 对于其中集合操作的如何对 单元long的操作上有很多的细节,
同时最后的经典的 Hamming Weight的算法针对计算设定1的个数上的 归并 树算法 也是不错的。通过查找网上的资料还是能够知道其算法是可以进行优化的,针对可溢出的计算,可以采用多项式和的方法对,最后8位的归并进行 乘法进行优化