二分查找算法是在一个有序(升序)的数据集中以集合里位于中间位置的值为基准来与要查找的值做比较,如此则把集合分为了两部分,一部分是从集合的起始位置到中间位置的前一个位置,所有的值都比中间位置的值小,另外一部分则从中间位置的下一个位置到集合的末尾,所有的值都比中间位置的值大,如果查找的值等于中间位置的值,则查找结束返回该中间位置的集合索引,如果查找的值较大则在大于中间位置值的集合中按照上述方法继续进行二分查找,如果查找的值小于中间位置的值则在小于中间位置值的集合中按照上述方法继续二分查找。
我们来看看JDK中是如何实现的。主要是在两个地方有实现,一个是java.util.Arrays,另一个是java.util.Collections。我们以Arrays类中的实现为例。该类中有很多针对不同数据类型的重载方法。我们以其中的对int类型的数据进行二分查找的方法为例。该方法在JDK 5中的具体实现如下面的代码所示:
public static int binarySearch(int[] a, int key) {
int low = 0;
int high = a.length-1;
while (low <= high) {
int mid = (low + high) >> 1;
int midVal = a[mid];
if (midVal < key)
low = mid + 1;
else if (midVal > key)
high = mid - 1;
else
return mid; // key found
}
return -(low + 1); // key not found
}
该方法的第一个参数为要查找的有序数组,第二个参数为要查找的值,返回值为查找到的值在数组中的索引。如果数组中没有该值,则返回-(insertion point+1),这里的
insertion point指的是要查找的值应该在数组中插入位置的索引,但这是在要查找的值不小于数组的最小值的情况下,如果要查找的值小于数组的最小值即数组的第一个值则
insertion point的值为0,即该方法会返回-1。因此,只要要查找的值在数组中存在,则该方法都会返回一个大于等于0的值即数组的索引,反之则是一个负值。要特别注意的是,这里的数组必须是有序且是升序的,而且如果要查找的值在数组中有多个相等的值,则返回的数组索引是不稳定的。
但上述代码中的“int mid = (low + high) >> 1;”这一句存在一个BUG,可能导致整数溢出,比如说low=0x7FFFFFFE, high=0x1000
,在JDK 5中mid=0xC00007FF
,这是个负数,此时该方法就会抛出ArrayIndexOutOfBoundsException数组越界的异常,这明显不是我们要的结果,我们期望的结果是mid=0x400007FF
。这个BUG直接导致了JDK 6之前的binarySearch
无法正确处理大数组的情况。这个BUG直到JDK 6才得到修复。下面的代码就是JDK 6中的实现:
private static int binarySearch0(int[] a, int fromIndex, int toIndex,
int key) {
int low = fromIndex;
int high = toIndex - 1;
while (low <= high) {
int mid = (low + high) >>> 1;
int midVal = a[mid];
if (midVal < key)
low = mid + 1;
else if (midVal > key)
high = mid - 1;
else
return mid; // key found
}
return -(low + 1); // key not found.
}
两者之间的主要差异就在于一个是有符号左移,一个是无符号左移,一个“>”的细微差异却隐藏着一个非常隐蔽的BUG。
当然解决上述BUG的方案不止一种:
int mid = low + ((high – low) / 2);