二叉排序树、平衡二叉排序树、B-树、B+树、B*树

引言:为啥会引入这些树的数据结构呢?在学习数据结构的时候,这块内容放到“查找”的章节中,文中提到,很多的查找算法都是基于顺序存储而言的,且没有考虑 对查找数据进行维护的问题,也就是说只对一组静态数据进行查找。但是在实际的应用中,如果需要对不断更新的数据进行查找,也就是所谓的动态查找,在顺序表中维护数据的有序是比较耗时的。树作为一种动态数据结构,人们发现通过对数的一些结构的限制,能够很大程度上提升查找的速度,并且维护起来也不是很困难。

二叉排序树

性质

二叉排序树:或者是一棵空树,或者是具有下列性质的二叉树:

  1. 若它的左子树不空,则左子树上所有结点的值均小于它的根结点的值;

  2. 若它的右子树不空,则右子树上所有结点的值均大于它的根结点的值;

  3. 它的左、右子树也分别为二叉排序树。
    《二叉排序树、平衡二叉排序树、B-树、B+树、B*树》

查找

在二元排序树b中查找x的过程为:

  1. 若b是空树,则搜索失败,否则:

  2. 若x等于b的根节点的数据域之值,则查找成功;否则:

  3. 若x小于b的根节点的数据域之值,则搜索左子树;否则:

  4. 查找右子树。

插入

二叉树的插入没有过多的限制,主要根据查找算法,找到插入的位置,进行数据的插入即可。不像之后的平衡二叉树,可能需要进行旋转操作。

删除
在二叉排序树中删去一个结点,分三种情况讨论:

  1. 若p结点为叶子结点,即PL(左子树)和PR(右子树)均为空树。由于删去叶子结点不破坏整棵树的结构,则只需修改其双亲结点的指针即可。

  2. 若p结点只有左子树PL或右子树PR,此时只要令PL或PR直接成为其双亲结点f的左子树(当p是左子树)或右子树(当p是右子树)即可,作此修改也不破坏二叉排序树的特性。

  3. 若p结点的左子树和右子树均不空。在删去p之后,为保持其它元素之间的相对位置不变,可按中序遍历保持有序进行调整。比较好的做法是,找到p的直接前驱(或直接后继)s,用s来替换结点p,然后再删除结点s。
    《二叉排序树、平衡二叉排序树、B-树、B+树、B*树》

性能分析:每个结点的Ci为该结点的层次数。最好的情况是二叉排序树的形态和折半查找的判定树相同,其平均查找长度和logn成正比(O(log2(n)))。最坏情况下,当先后插入的关键字有序时,构成的二叉排序树为一棵斜树,树的深度为n,其平均查找长度为(n + 1) / 2。也就是时间复杂度为O(n),等同于顺序查找。因此,如果希望对一个集合按二叉排序树查找,最好是把它构建成一棵平衡的二叉排序树(平衡二叉树)

平衡二叉排序树

性质
平衡二叉树(Balanced Binary Tree),又称AVL树,于1962年由Adelson-Velskii和Landis提出。设二叉树中节点的左子树和右子树的深度分别为HL和HR。平衡二叉树对于每一个节点来说,左右子树的高度之差都不会超过1。即:
|HL – HR| <= 1。

若构造二叉排序树的同时,使其始终保持为AVL树,则此时的二叉排树称为平衡二叉排序树。

平衡二叉排序树的查找操作和二叉排序树的查找操作完全一样,对于插入和删除操作,因为平衡二叉排序树需要维持平衡操作,因此需要根据节点的平衡因子(BF)进行旋转操作。

插入
插入的方法和二叉查找树基本一样,区别是,插入完成后需要从插入的节点开始维护一个到根节点的路径,每经过一个节点都要维持树的平衡。维持树的平衡要根据高度差的特点选择不同的旋转算法。

删除
删除的方法也和二叉查找树的一致,区别是,删除完成后,需要从删除节点的父亲开始向上维护树的平衡一直到根节点。

旋转操作
上面提到,当进行插入和删除之后,需要通过旋转操作来维持树的平衡,“旋转”有一下四种情况:
1. LL型

平衡二叉树某一节点的左孩子的左子树上插入一个新的节点,使得该节点不再平衡。这时只需要把树向右旋转一次即可,如图所示,原A的左孩子B变为父结点,A变为其右孩子,而原B的右子树变为A的左子树
《二叉排序树、平衡二叉排序树、B-树、B+树、B*树》
2. RR型

平衡二叉树某一节点的右孩子的右子树上插入一个新的节点,使得该节点不再平衡。这时只需要把树向左旋转一次即可,如图所示,原A右孩子B变为父结点,A变为其左孩子,而原B的左子树Blh将变为A的右子树。
《二叉排序树、平衡二叉排序树、B-树、B+树、B*树》
3. LR型

平衡二叉树某一节点的左孩子的右子树上插入一个新的节点,使得该节点不再平衡。这时需要旋转两次,仅一次的旋转是不能够使二叉树再次平衡。如图所示,在B节点按照RR型向左旋转一次之后,二叉树在A节点仍然不能保持平衡,这时还需要再向右旋转一次。
《二叉排序树、平衡二叉排序树、B-树、B+树、B*树》
4. RL型
平衡二叉树某一节点的右孩子的左子树上插入一个新的节点,使得该节点不再平衡。同样,这时需要旋转两次,旋转方向刚好同LR型相反。
《二叉排序树、平衡二叉排序树、B-树、B+树、B*树》

B-树

B-树是一种多路搜索树(并不是二叉的):
1. 定义任意一个非叶子节点最多和只有M个儿子;且M > 2;
2. 根节点的儿子树为[2, M];
3. 除根节点以外的非叶子节点的儿子树为[M/2(M/2向上取整), M];
4. 每个节点存放至少M/2-1(取上整)和至多M-1个关键字;
5. 非叶子节点的关键字个数 = 指向儿子的指针个数 – 1;
6. 叶子节点的关键字树:K[1], K[2], K[3], …, K[M-1];且K[i] < K[i + 1];
7. 非叶子节点的指针:P[1], P[2], P[3], …, P[M],其中关键字P[1]指向关键字小于K[1]的子树。
8. 所有的叶子节点位于同一层。
如:(M = 3)
《二叉排序树、平衡二叉排序树、B-树、B+树、B*树》
B-树的搜索,从根结点开始,对结点内的关键字(有序)序列进行二分查找,如果命中则结束,否则进入查询关键字所属范围的儿子结点;重复,直到所对应的儿子指针为空,或已经是叶子结点;

B-树的特性:
1. 关键字集合分布在整颗树中;
2. 任何一个关键字出现且只出现在一个结点中;
3. 搜索有可能在非叶子结点结束;
4. 其搜索性能等价于在关键字全集内做一次二分查找;
5. 自动层次控制;

对于B树由于M/2的限制,在插入节点时,如果节点已满,需要将节点分裂为两个各占M/2的节点;删除节点时,需要将不足M/2的兄弟节点合并;

B+树

B+树是B-树的变体,也是一种多路搜索树:
1. 其定义基本与B-树同,除了:
2. 非叶子结点的子树指针与关键字个数相同;
3. 非叶子结点的子树指针P[i],指向关键字值属于[K[i], K[i+1])的子树(B-树是开区间);
4. 为所有叶子结点增加一个链指针;
5. 所有关键字都在叶子结点出现;
如: (M = 3)
《二叉排序树、平衡二叉排序树、B-树、B+树、B*树》
B+的搜索与B-树也基本相同,区别是B+树只有达到叶子结点才命中(B-树可以在非叶子结点命中),其性能也等价于在关键字全集做一次二分查找;

B+树的特性:

  1. 所有关键字都出现在叶子结点的链表中(稠密索引),且链表中的关键字恰好是有序的;

  2. 不可能在非叶子结点命中;

  3. 非叶子结点相当于是叶子结点的索引(稀疏索引),叶子结点相当于是存储
    (关键字)数据的数据层;

  4. 更适合文件索引系统;

B*树

是B+树的变体,在B+树的非根和非叶子结点再增加指向兄弟的指针;
《二叉排序树、平衡二叉排序树、B-树、B+树、B*树》
B*树定义了非叶子结点关键字个数至少为(2/3)*M,即块的最低使用率为2/3(代替B+树的1/2);

B+树的分裂:当一个结点满时,分配一个新的结点,并将原结点中1/2的数据
复制到新结点,最后在父结点中增加新结点的指针;B+树的分裂只影响原结点和父结点,而不会影响兄弟结点,所以它不需要指向兄弟的指针;

B*树的分裂:当一个结点满时,如果它的下一个兄弟结点未满,那么将一部分
数据移到兄弟结点中,再在原结点插入关键字,最后修改父结点中兄弟结点的关键字(因为兄弟结点的关键字范围改变了);如果兄弟也满了,则在原结点与兄弟结点之间增加新结点,并各复制1/3的数据到新结点,最后在父结点增加新结点的指针;

小结:
上面也就是常用的一些用于搜索的数的结构了,当然了,为了追求更好的查询性能等,人们不断在已有的数的结构中,提出优化方案,比如红黑树等。

    原文作者:平衡二叉树
    原文地址: https://blog.csdn.net/jcw321/article/details/76762677
    本文转自网络文章,转载此文章仅为分享知识,如有侵权,请联系博主进行删除。
点赞