B+-дерево — различия между версиями

Версия 20:04, 11 апреля 2018

[math]B^{+}[/math]-дерево (англ. [math]B^{+}[/math]-tree) — структура данных на основе B-дерева, сбалансированное [math]n[/math]-арное дерево поиска с переменным, но зачастую большим количеством потомков в узле. [math]B^{+}[/math]-деревья имеют очень высокий коэффициент ветвления (число указателей из родительского узла на дочерние, обычно порядка [math]100[/math] или более), что снижает количество операций ввода-вывода, требующих поиска элемента в дереве.

Содержание

1 Отличия от B-дерева
2 Структура
- 2.1 Структура узла
- 2.2 Структура дерева
3 Оценка высоты дерева
4 Операции
5 Где используется
6 См. также
7 Примeчания
8 Источники информации

Отличия от B-дерева

В [math]B[/math]-дереве во всех вершинах хранятся ключи вместе с сопутствующей информацией. В [math]B^{+}[/math]-деревьях вся информация хранится в листьях, а во внутренних узлах хранятся только копии ключей. Таким образом удается получить максимально возможную степень ветвления во внутренних узлах. Кроме того, листовой узел может включать в себя указатель на следующий листовой узел для ускорения последовательного доступа, что решает одну из главных проблем [math]B[/math]-деревьев.

Структура

Свойства [math]B^{+}[/math] дерева аналогичны свойствам [math]B[/math]-дерева (с учетом отличий описанных выше).

Структура узла

struct Node
   bool leaf       // является ли узел листом
   int  key_num    // количество ключей узла
   int  key[]      // ключи узла
   Node parent     // указатель на отца
   Node child[]    // указатели на детей узла
   Info pointers[] // если лист — указатели на данные
   Node left       // указатель на левого брата
   Node right      // указатель на правого брата

Структура дерева

struct BPlusTree
   int  t          // минимальная степень дерева
   Node root       // указатель на корень дерева

Оценка высоты дерева

Теорема:

Если , то для -дерева c узлами и минимальной степенью высота

Доказательство:

Так как [math]n \geqslant 1[/math], то корень [math]B^{+}[/math]-дерева [math]T[/math] содержит хотя бы один ключ, а все остальные узлы — хотя бы [math]t - 1[/math] ключей. [math]T[/math] имеет хотя бы [math]2[/math] узла на высоте [math]1[/math], не менее [math]2t[/math] узлов на глубине [math]2[/math], и так далее. То есть на глубине [math]h[/math], оно имеет хотя бы [math]2t^{h-1}[/math] узлов. Так как сами ключи хранятся только в листах, а во внутренних вершинах лишь их копии, то для [math]n[/math] ключей [math]n \geqslant 2t^{h-1}[/math]

Как можно заметить, высота [math]B^{+}[/math]-дерева не более чем на [math]1[/math] отличается от высоты [math]B[/math]-дерева, то есть хранение информации только в листах почти не ухудшает эффективность дерева

Операции

[math]B^{+}[/math]-деревья являются сбалансированными, поэтому время выполнения стандартных операций в них пропорционально высоте, то есть [math]O(\log n)[/math]. Однако стоит заметить, что так как степень дерева зачастую выбирается большой, константа при выполнении операций тоже большая. Это связано с большим количеством ключей в узлах, которые необходимо сравнить. Но из-за небольшой высоты дерева это не сильно сказывается на скорости работы.

Поиск листа

Напишем вспомогательную функцию, которая будет возвращать лист, в котором должен находится переданный ей ключ. Определяем интервал и переходим к соответствующему сыну. Повторяем пока не дошли до листа.

Node find_leaf(T: BPlusTree, key: int):
    cur = T.root
    while cur.leaf [math]\neq[/math] true
        for i = 0 to cur.key_num
            if i == cur.key_num or key < cur.key[i]
                cur = cur.child[i]
                break
    return cur

Поиск

Находим нужный лист через [math]find[/math]_[math]leaf[/math] и ищем нужный ключ в нем

Добавление ключа

Ищем лист, в который можно добавить ключ и добавляем его в список ключей. Если узел не заполнен, то добавление завершено. Иначе разбиваем узел на два узла. Будем считать, что в дереве не может находиться [math]2[/math] одинаковых ключа, поэтому [math]insert[/math] будет возвращать был ли добавлен ключ.

bool insert(T: BPlusTree, key: int, value: Info):
    leaf = find_key(T, key)
    for i = 0 to leaf.key_num
        if key == leaf.key[i]
            return false 
    pos = 0
    while pos < leaf.key_num and leaf.key[pos] < key
        ++pos
    for i = leaf.key_num downto pos + 1 
        leaf.key[i] = leaf.key[i - 1]
        leaf.pointers[i] = leaf.pointer[i - 1]
    leaf.key[pos] = key
    leaf.pointers[pos] = value
    ++leaf.key_num
    if leaf.key_num == 2 * t              // t — степень дерева
        split(T, leaf)                   // Разбиваем узел
    return true

Разбиение узла

Разбиение на два узла происходит следующим образом: в первый добавляем первые [math]t[/math] ключей, во второй последние [math]t - 1[/math]. Если узел — лист, то оставшийся ключ также добавляется в правое поддерево, а его копия отправляется в родительский узел, где становится разделительной точкой для двух новых поддеревьев.

Если и родительский узел заполнен — поступаем аналогично, но не копируем, а просто перемещаем оставшийся перемещаем ключ в родительский узел, так как это просто копия. Повторяем пока не встретим незаполненный узел или не дойдем до корня. В последнем случае корень разбивается на два узла и высота дерева увеличивается.

Поскольку в родителя всегда отправляется минимальный ключ из второй половины, то каждый ключ, который хранится во внутренней вершине — это минимум правого поддерева для этого ключа.

void split(T: BPlusTree, node: Node):
    new_node = new_Node()                  //Создаем новый узел
    new_node.right = node.right
    node.right.left = new_node
    node.right = new_node
    new_node.left = node
    mid_key = node.key[t]
    new_node.key_num = t - 1
    
    for i = 0 to new_node.key_num - 1
        new_node.key[i] = node.key[i + t + 1]
        new_node.pointers[i] = node.pointers[i + t + 1]  
        new_node.child[i] = node.child[i + t + 1]    
    new_node.child[new_node.key_num] = node.child[2 * t]  
    node.key_num = t
    
    if node.leaf
        ++new_node.key_num
        new_node.leaf = true
        for i = new_node.key_num - 1 downto 1
            new_node.key[i] = node.key[i - 1]
            new_node.pointers[i] = node.pointers[i - 1]
        new_node.key[0] = node.key[t]
        new_node.pointers[0] = node.pointers[0]
    
    if node == T.root
        T.root = new_Node()
        T.root.key[0] = mid_key
        T.root.child[0] = node
        T.root.child[1] = new_node
        T.root.key_num = 1;
        node.parent = T.root
        new_node.parent = T.root
    else
        new_node.parent = node.parent
        parent = node.parent
        pos = 0
        while pos < parent.key_num and parent.key[pos] < mid_key
            ++pos
        for i = parent.key_num downto pos + 1 
            parent.key[i] = parent.key[i - 1]
        for i = parent.key_num + 1 downto pos + 2 
            parent.child[i] = parent.child[i - 1]
        parent.key[pos] = mid_key
        parent.child[pos + 1] = new_node
        ++parent.key_num
        
        if parent.key_num == 2 * t 
            split(T, parent)

Удаление

Поскольку все ключи находятся в листах, для удаления в первую очередь необходимо найти листовой узел, в котором он находится. Если узел содержит не менее [math]t - 1[/math] ключей, где [math]t[/math] — это степень дерева, то удаление завершено. Иначе необходимо выполнить попытку перераспределения элементов, то есть добавить в узел элемент из левого или правого брата (не забыв обновить информацию в родителе). Если это невозможно, необходимо выполнить слияние с братом и удалить ключ, который указывает на удалённый узел. Объединение может распространяться на корень, тогда происходит уменьшение высоты дерева. Так как мы считаем, что в дереве не может находиться [math]2[/math] одинаковых ключей, то [math]delete[/math] будет возвращать был ли удален ключ.

bool delete(T: BPlusTree, key: int):
    leaf = find_key(T, key)
    pos = 0
    while pos < leaf.key_num and leaf.key[pos] < key
        ++pos
    if pos == leaf.key_num or leaf.key[pos] [math]\neq[/math] key
        return false
    else 
        delete_in_node(leaf, key)                    // Удалить ключ из вершины
        return true

void delete_in_node(tec: Node, key: int):
    pos = 0
    while pos < tec.key_num and tec.key[pos] < key
        ++pos
    if pos == tec.key_num or tec.key[pos] [math]\neq[/math] key
        return
    for i = pos to tec.key_num - 1 
        tec.key[i] = tec.key[i + 1]
        tec.pointers[i] = tec.pointer[i + 1]
    for i = pos + 1 to tec.key_num 
        tec.child[i] = tec.child[i + 1]
    --tec.key_num
    
    if leaf.key_num < t - 1
        right_sibling = tec.right
        left_sibling = tec.left
        if left_sibling [math]\neq[/math] null and left_sibling.key_num > t - 1
            --left_sibling.key_num
            ++tec.key_num
            for i = 1 to tec.key_num - 1 
                tec.key[i] = tec.key[i - 1]
                tec.pointers[i] = tec.pointer[i - 1] 
                tec.child[i] = tec.child[i - 1]
            tec.child[tec.key_num] = tec.child[tec.key_num - 1]
            tec.key[0] = left_sibling.key[left_sibling.key_num]
            tec.pointers[0] = left_sibling.pointers[left_sibling.key_num]
            tec.child[0] = left_sibling.child [left_sibling.key_num + 1]
            update(tec)                                                        // Обновить ключи на пути к корню
        
        else if right_sibling [math]\neq[/math] null and right_sibling.key_num > t - 1
            --right_sibling.key_num
            ++tec.key_num
            tec.key[tec.key_num - 1] = right_sibling.key[0]
            tec.pointers[tec.key_num - 1] = right_sibling.child[0]
            tec.child[tec.key_num - 1] = right_sibling.pointers[0]
            update(tec)  
         
        else
            if left_sibling [math]\neq[/math] null 
                left_sibling.right = tec.right
                tec.right.left = left_sibling 
                for i = 0 to tec.key_num - 1
                    left_sibling.key[left_sibling.key_num] = tec.key[i]
                    left_sibling.pointers[left_sibling.key_num] = tec.pointers[i]
                    left_sibling.child[left_sibling.key_num + 1] = tec.child[i]
                    ++left_sibling.key_num
                left_sibling.child[left_sibling.key_num + 1] = tec.child[tec.key_num]
                update(left_sibling) 
                delete_in_node(left_sibling.parent, min_key(tec))      // Удаляем разделительный ключ в отце
             
            else
                right_sibling.right.left = tec 
                tec.right = right_sibling.right
                for i = 0 to tec.key_num - 1
                    tec.key[tec.key_num] = right_sibling.key[i]
                    tec.pointers[tec.key_num] = right_sibling.pointers[i]
                    tec.child[tec.key_num + 1] = right_sibling.child[i]
                    ++tec.key_num
                tec.child[tec.key_num + 1] = right_sibling.child[right_sibling.key_num]
                update(tec)
                delete_in_node(tec.parent, min_key(right_sibling)) 
        if T.root.key_num == 1
            T.root = T.root.child[0]

Где используется

Изначально структура предназначалась для эффективного поиска в блочно-ориентированной среде хранения — в частности, для файловых систем. Структура широко применяется в таких файловых системах, как NTFS^[1], ReiserFS^[2], NSS^[3], JFS^[4], ReFS^[5]. Различные реляционные системы управления базами данных, такие как Microsoft SQL Server^[6], Oracle Database^[7], SQLite^[8] используют [math]B^{+}[/math]-деревья для табличных индексов.

См. также

Примeчания

Источники информации

Д. Кнут «Искусство программирования. Сортировка и поиск», часть 6.2.4
Wikipedia — B Plus tree
Wikipedia — B tree
B plus tree visualization

[1] Wikipedia — NTFS

[2] Wikipedia — ReiserFS

[3] Wikipedia — NSS

[4] Wikipedia — JFS

[5] Wikipedia — ReFS

[6] Wikipedia — Microsoft SQL Server

[7] Wikipedia — Oracle Database

[8] Wikipedia — SQLite

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

@@ Строка 45: / Строка 45: @@
   '''Node''' find_leaf(T: '''BPlusTree''', key: '''int'''):
-      now = T.root
+      cur = T.root
-      '''while''' now.leaf <tex>\neq</tex> true
+      '''while''' cur.leaf <tex>\neq</tex> true
-          '''for''' i = 0 '''to''' now.key_num
+          '''for''' i = 0 '''to''' cur.key_num
-              '''if''' i == now.key_num '''or''' key < now.key[i]
+              '''if''' i == cur.key_num '''or''' key < cur.key[i]
-                  now = now.child[i]
+                  cur = cur.child[i]
                   '''break'''
-      '''return''' now
+      '''return''' cur
 === Поиск ===

B+-дерево — различия между версиями

Версия 20:04, 11 апреля 2018

Содержание

Отличия от B-дерева

Структура

Структура узла

Структура дерева

Оценка высоты дерева

Операции

Поиск листа

Поиск

Добавление ключа

Разбиение узла

Удаление

Где используется

См. также

Примeчания

Источники информации

Навигация

Персональные инструменты

Пространства имён

Варианты

Просмотры

Ещё

Поиск

Навигация

Инструменты