B, B-, B+树的定义,特性,联系与区别(红黑树)

B树的不同定义,有时B树即是B-树

为什么会有B树: 因为二叉树的查找平均时间是logN,是与二叉树的深度有关,所以为了减少二叉树的深度,增加查找速度,势必要增加树的叉树。如果该树是M叉的,M>2的话,logm(N)势必要小于log2(N),所以当数据量非常大的时候,B树的平均查找时间要少于二叉树。

红黑树:带有平衡性的二叉搜索树增强版

红黑树是每个节点都带有颜色属性的二叉查找树,颜色或红色或黑色。在二叉查找树强制一般要求以外,对于任何有效的红黑树我们增加了如下的额外要求:

  性质1. 节点是红色或黑色。

  性质2. 根节点是黑色。

  性质3 每个叶节点是黑色的。

  性质4 每个红色节点的两个子节点都是黑色。(从每个叶子到根的所有路径上不能有两个连续的红色节点)

  性质5. 从任一节点到其每个叶子的所有路径都包含相同数目的黑色节点。

这些约束强制了红黑树的关键性质: 从根到叶子的最长的可能路径不多于最短的可能路径的两倍长。结果是这个树大致上是平衡的。因为操作比如插入、删除和查找某个值的最坏情况时间都要求与树的高度成比例,这个在高度上的理论上限允许红黑树在最坏情况下都是高效的,而不同于普通的二叉查找树。

要知道为什么这些特性确保了这个结果,注意到性质4导致了路径不能有两个毗连的红色节点就足够了。最短的可能路径都是黑色节点,最长的可能路径有交替的红色和黑色节点。因为根据性质5所有最长的路径都有相同数目的黑色节点,这就表明了没有路径能多于任何其他路径的两倍长。

考虑一棵黑色高度为3的红黑树:从根结点到叶结点的最短路径长度显然是2(黑-黑-黑),最长路径为4(黑-红-黑-红-黑)。由于性质4,不可能在最长路经中加入更多的黑色 结点, 此外根据性质3,红色结点的子结点必须是黑色的,因此在同一简单路径中不允许有两个连续的红色结点。综上,我们能够建立的最长路经将是一个红黑交替的路径。

由此我们可以得出结论:对于给定的黑色高度为n的红黑树,从根到叶结点的简单路径的最短长度为n-1,最大长度为2(n-1)。

《B, B-, B+树的定义,特性,联系与区别(红黑树)》

B, B-, B+树总结:

B树:二叉树,每个结点只存储一个关键字,等于则命中,小于走左结点,大于走右结点;

B-树:多路搜索树,每个结点存储M/2到M个关键字,非叶子结点存储指向关键字范围的子结点;所有关键字在整颗树中出现,且只出现一次,非叶子结点可以命中;(关键字可以在非叶子节点和叶子节点)M指的是树的阶数

B+树:在B-树基础上,为叶子结点增加链表指针,所有关键字都在叶子结点中出现,非叶子结点作为叶子结点的索引;B+树总是到叶子结点才命中;

 B*树:在B+树基础上,为非叶子结点也增加链表指针,将结点的最低利用率从1/2提高到2/3;

性能比较:

性能相当,都等价于在关键字全集做一次二分查找;

B-树 改善了B树的平衡问题,

B+树比 B-树 更适合文件索引系统(结构上的改善),

B*树比B+树改善了空间利用率。

红黑树和AVL树的比较:

红黑树:

(1)并不追求“完全平衡”——它只要求部分地达到平衡要求,降低了对旋转的要求,从而提高了性能。红黑树能够以O(log2 n) 的时间复杂度进行搜索、插入、删除操作。

(2)此外,由于它的设计,任何不平衡都会在三次旋转之内解决。红黑树能够给我们一个比较“便宜”的解决方案。红黑树的算法时间复杂度和AVL相同,但统计性能比AVL树更高。

AVL树:

(1)它的左子树和右子树都是AVL树,左子树和右子树的高度差不能超过1;

(2) 查找、插入和删除在平均和最坏情况下都是O(log n),增加和删除可能需要通过一次或多次树旋转来重新平衡这个树;

(3)一棵n个结点的AVL树的其高度保持在0(log2(n)),不会超过3/2log2(n+1)

一棵n个结点的AVL树的平均搜索长度保持在0(log2(n)).

一棵n个结点的AVL树删除一个结点做平衡化旋转所需要的时间为0(log2(n)).

B树

二叉排序树(Binary Sort Tree)又称二叉查找(二路搜索)树,也叫B树。  它或者是一棵空树;或者是具有下列性质的二叉树:  

(1)若左子树不空,则左子树上所有结点的值均小于左子树所在树的根结点的值;  

(2)若右子树不空,则右子树上所有结点的值均大于右子树所在树的根结点的值;

(3)左、右子树也分别为二叉排序树;

B树的特点:

1.所有非叶子结点至多拥有两个儿子(Left和Right);

2.所有结点存储一个关键字;

3.非叶子结点的左指针指向小于其关键字的子树,右指针指向大于其关键字的子树;

B树的搜索:从根结点开始,如果查询的关键字与结点的关键字相等,那么就命中;否则,如果查询关键字比结点关键字小,就进入左儿子;如果比结点关键字大,就进入右儿子;如果左儿子或右儿子的指针为空,则报告找不到相应的关键字;如果B树的所有非叶子结点的左右子树的结点数目均保持差不多(平衡),那么B树的搜索性能逼近二分查找

 

《B, B-, B+树的定义,特性,联系与区别(红黑树)》

B-树

B-树是一种平衡的多路查找树,在文件系统中有所应用。主要用作文件的索引

B-树是一种多路搜索树(并不是二叉的):

       1.定义任意非叶子结点最多只有M个儿子;且M>2;

       2.根结点的儿子数为[2, M];

       3.除根结点以外的非叶子结点的儿子数为[M/2, M];

       4.每个结点存放至少M/2-1(取上整)和至多M-1个关键字;(至少2个关键字)

       5.非叶子结点的关键字个数=指向儿子的指针个数-1;

       6.非叶子结点的关键字:K[1], K[2], …, K[M-1];且K[i] < K[i+1];

       7.非叶子结点的指针:P[1], P[2], …, P[M];其中P[1]指向关键字小于K[1]的子树,P[M]指向关键字大于K[M-1]的子树,其它P[i]指向关键字属于(K[i-1], K[i])的子树;

       8.所有叶子结点位于同一层;如:(M=3)

 B-树的搜索,从根结点开始,对结点内的关键字(有序)序列进行二分查找,如果命中则结束,否则进入查询关键字所属范围的儿子结点;重复,直到所对应的儿子指针为空,或已经是叶子结点;

B-树的特性: 

           1.关键字集合分布在整颗树中;

            2.任何一个关键字出现且只出现在一个结点中;

            3.搜索有可能在非叶子结点结束;

            4.其搜索性能等价于在关键字全集内做一次二分查找;

            5.自动层次控制;

拥有 K 个孩子的非叶子节点包含 k-1 个keys(关键字),且递增排列

《B, B-, B+树的定义,特性,联系与区别(红黑树)》

B+树

B+树是应文件系统所需而出的一种B-树的变型树。

B+树是B-树的变体,也是一种多路搜索树:

                         1.其定义基本与B-树同,除了:

                        2.非叶子结点的子树指针与关键字个数相同;

                       3.非叶子结点的子树指针P[i],指向关键字值属于[K[i], K[i+1])的子树(B-树是开区间);

                      4.为所有叶子结点增加一个链指针;

                      5.所有关键字都在叶子结点出现;

   如:(M=3)

  B+的搜索与B-树也基本相同,区别是B+树只有达到叶子结点才命中(B-树可以在非叶子结点命中),其性能也等价于在关键字全集做一次二分查找;

B+的特性: 1.所有关键字都出现在叶子结点的链表中(稠密索引),且链表中的关键字恰好是有序的;

                          2.不可能在非叶子结点命中;

                         3.非叶子结点相当于是叶子结点的索引(稀疏索引),叶子结点相当于是存储(关键字)数据的数据层;

                        4.更适合文件索引系统;

《B, B-, B+树的定义,特性,联系与区别(红黑树)》

B树和B+树的区别

B/B+树用在磁盘文件组织、数据索引和数据库索引中。其中B+树比B 树更适合实际应用中操作系统的文件索引和数据库索引,因为:

1、B+树的磁盘读写代价更低

B+树的内部结点并没有指向关键字具体信息的指针。因此其内部结点相对B 树更小。如果把所有同一内部结点的关键字存放在同一盘块中,那么盘块所能容纳的关键字数量也越多。一次性读入内存中的需要查找的关键字也就越多。相对来说IO读写次数也就降低了。

举个例子,假设磁盘中的一个盘块容纳16bytes,而一个关键字2bytes,一个关键字具体信息指针2bytes。一棵9阶B-tree(一个结点最多8个关键字)的内部结点需要2个盘快。而B+ 树内部结点只需要1个盘快。当需要把内部结点读入内存中的时候,B 树就比B+ 树多一次盘块查找时间(在磁盘中就是盘片旋转的时间)。

2、B+-tree的查询效率更加稳定

由于非终结点并不是最终指向文件内容的结点,而只是叶子结点中关键字的索引。所以任何关键字的查找必须走一条从根结点到叶子结点的路。所有关键字查询的路径长度相同,导致每一个数据的查询效率相当。

3、B树在元素遍历的时候效率较低

B+树只要遍历叶子节点就可以实现整棵树的遍历。在数据库中基于范围的查询相对频繁,所以此时B+树优于B树。

红黑树的应用及和B树区别

应用:

1、广泛用在C++的STL中。map和set都是用红黑树实现的。

2、著名的linux进程调度Completely Fair Scheduler,用红黑树管理进程控制块

3、epoll在内核中的实现,用红黑树管理事件块

4、nginx中,用红黑树管理timer等

5、Java的TreeMap实现

等等

和B树比较

??一言而知就是树的深度较高,在磁盘I/O方面的表现不如B树。

??要获取磁盘上数据,必须先通过磁盘移动臂移动到数据所在的柱面,然后找到指定盘面,接着旋转盘面找到数据所在的磁道,最后对数据进行读写。磁盘IO代价主要花费在查找所需的柱面上,树的深度过大会造成磁盘IO频繁读写。根据磁盘查找存取的次数往往由树的高度所决定。

??所以,在大规模数据存储的时候,红黑树往往出现由于树的深度过大而造成磁盘IO读写过于频繁,进而导致效率低下。在这方面,B树表现相对优异,B树可以有多个子女,从几十到上千,可以降低树的高度。

AVL树和红黑树

红黑树的算法时间复杂度和AVL相同,但统计性能比AVL树更高。

1、红黑树和AVL树都能够以O(log2 n)的时间复杂度进行搜索、插入、删除操作。

2、由于设计,红黑树的任何不平衡都会在三次旋转之内解决。AVL树增加和删除可能需要通过一次或多次树旋转来重新平衡这个树。

查找方面:

??红黑树的性质(最长路径长度不超过最短路径长度的2倍),其查找代价基本维持在O(logN)左右,但在最差情况下(最长路径是最短路径的2倍少1),比AVL要略逊色一点。

??AVL是严格平衡的二叉查找树(平衡因子不超过1)。查找过程中不会出现最差情况的单支树。因此查找效率最好,最坏情况都是O(logN)数量级的。

所以,综上:

??AVL比RBtree更加平衡,但是AVL的插入和删除会带来大量的旋转。 所以如果插入和删除比较多的情况,应该使用RBtree, 如果查询操作比较多,应该使用AVL。

AVL是一种高度平衡的二叉树,维护这种高度平衡所付出的代价比从中获得的效率收益还大,故而实际的应用不多,更多的地方是用追求局部而不是非常严格整体平衡的红黑树。当然,如果场景中对插入删除不频繁,只是对查找特别有要求,AVL还是优于红黑的。

B树(M阶)的插入和删除

注意点:

1、非叶子节点的孩子个数超过 M-1 时要分裂,分裂时,将中间的key向上移植父节点。

2、小于 M/2 – 1(向上取整) 时要合并,将最左边或者最右边的key向上移至父节点。

实例(这里 M = 5),所以 [M/2] – 1 = 2, M – 1 = 4

插入

1、初始状态

《B, B-, B+树的定义,特性,联系与区别(红黑树)》

2、插入E,K,Q

不需要任何分裂操作

《B, B-, B+树的定义,特性,联系与区别(红黑树)》

3、插入M

需要一次分裂,注意M恰好是中间关键字元素,以致向上移到父节点中

《B, B-, B+树的定义,特性,联系与区别(红黑树)》

4、插入F,W,L,T

不需要任何分裂操作

《B, B-, B+树的定义,特性,联系与区别(红黑树)》

5、插入Z时

最右的叶子结点空间满了,需要进行分裂操作,中间元素T上移到父节点中,注意通过上移中间元素,树最终还是保持平衡,分裂结果的结点存在2个关键字元素

《B, B-, B+树的定义,特性,联系与区别(红黑树)》

6、插入D,P,R,X,Y

最左边的叶子结点被分裂,D恰好也是中间元素,上移到父节点中,然后字母P,R,X,Y陆续插入不需要任何分裂操作(别忘了,树中至多5个孩子)

《B, B-, B+树的定义,特性,联系与区别(红黑树)》

7、最后,插入S

含有N,P,Q,R的结点需要分裂,把中间元素Q上移到父节点中,但是情况来了,父节点中空间已经满了,所以也要进行分裂,将父节点中的中间元素M上移到新形成的根结点中,注意以前在父节点中的第三个指针在修改后包括D和G节点中。

《B, B-, B+树的定义,特性,联系与区别(红黑树)》

插入操作完成。

删除

1、初始状态

《B, B-, B+树的定义,特性,联系与区别(红黑树)》

2、删除元素H

首先查找H,H在一个叶子结点中,且该叶子结点元素数目3 > 2

移动K至原来H的位置,移动L至K的位置(也就是结点中删除元素后面的元素向前移动)

《B, B-, B+树的定义,特性,联系与区别(红黑树)》

3、删除T

在中间结点中找到T,此时删了T后该节点关键字个数 1 < 2

将W上移到T的位置,然后将原包含W的孩子结点中的W进行删除,这里恰好删除W后,该叶子结点中元素个数 > 2,无需进行合并操作

《B, B-, B+树的定义,特性,联系与区别(红黑树)》

4、删除R

R所在叶子结点中元素数目为2,删除导致只有1个元素

 

5、删除E

删除后会导致很多问题,因为E所在的结点数目刚好达标,刚好满足最小元素个数([M/2] – 1),而相邻的兄弟结点也是同样的情况,删除一个元素都不能满足条件

所以需要该节点与某相邻兄弟结点进行合并操作:

首先,移动父结点中的元素(该元素在两个需要合并的两个结点元素之间)下移到其子结点中;

然后将这两个结点进行合并成一个结点。

即,将父节点中的元素D下移到已经删除E而只有F的结点中,然后将含有D和F的结点和含有A,C的相邻兄弟结点进行合并成一个结点。

《B, B-, B+树的定义,特性,联系与区别(红黑树)》

此时G所在节点只有一个元素,不行。

此时该结点的相邻兄弟又不丰满,只能与兄弟结点进行合并成一个结点,而根结点中的唯一元素M下移到子结点,这样,树的高度减少一层。

《B, B-, B+树的定义,特性,联系与区别(红黑树)》

    原文作者:B树
    原文地址: https://blog.csdn.net/l1394049664/article/details/81463591
    本文转自网络文章,转载此文章仅为分享知识,如有侵权,请联系博主进行删除。
点赞

发表评论

电子邮件地址不会被公开。 必填项已用*标注