Изменения

← Предыдущая правка

B+-дерево

4271 байт добавлено, 11:24, 1 сентября 2022

Отмена правки 84045, сделанной 185.220.100.252 (обсуждение)

'''B<tex>B^{+}</tex>-дерево''' (англ. ''B<tex>B^{+}</tex>-tree'') {{---}} структура данных на основе [[B-дерево|B-дерева]], сбалансированное <tex>n</tex>-арное дерево поиска с переменным, но зачастую большим количеством потомков в узле. B<tex>B^{+}</tex>-деревья имеют очень высокий коэффициент ветвления (число указателей из родительского узла на дочерние, обычно порядка <tex>100</tex> или более), что снижает количество операций ввода-вывода, требующих поиска элемента в дереве. ~~== Где используется ==~~Изначально структура предназначалась для эффективного поиска в блочно-ориентированной среде хранения {{---}} в частности, для файловых систем. Структура широко применяется в таких файловых системах, как NTFS<ref>[[wikipedia:NTFS |Wikipedia {{---}} NTFS]]</ref>, ReiserFS<ref>[[wikipedia:ReiserFS |Wikipedia {{---}} ReiserFS]]</ref>, NSS<ref>[[wikipedia:Novell Storage Services |Wikipedia {{---}} NSS]]</ref>, JFS<ref>[[wikipedia:JFS (file system) |Wikipedia {{---}} JFS]]</ref>, ReFS<ref>[[wikipedia:ReFS |Wikipedia {{---}} ReFS]]</ref>. Различные реляционные системы управления базами данных, такие как Microsoft SQL Server<ref>[[wikipedia:Microsoft SQL Server|Wikipedia {{---}} Microsoft SQL Server]]</ref>, Oracle Database<ref>[[wikipedia:Oracle Database|Wikipedia {{---}} Oracle Database]]</ref>, SQLite<ref>[[wikipedia:SQLite|Wikipedia {{---}} SQLite]]</ref> используют B<tex>^{+}</tex>-деревья для табличных индексов.

== Отличия от B-дерева ==

В <tex>B</tex>-дереве во всех вершинах хранятся ключи вместе с сопутствующей информацией. В B<tex>B^{+}</tex>-деревьях вся информация хранится в листьях, а во внутренних узлах хранятся только копии ключей. Таким образом удается получить максимально возможную степень ветвления во внутренних узлах. Кроме того, листовой узел может включать в себя указатель на следующий листовой узел для ускорения последовательного доступа, что решает одну из главных проблем ~~B-деревьев.~~ ~~== Оценка высоты дерева =={{Теорема|statement=Если <tex>n \geqslant 1~~</tex>~~, то для~~ B~~<tex>^{+}~~</tex>-~~дерева c <tex>n</tex> узлами и минимальной степенью <tex>t \geqslant 2</tex> высота:<tex>h \leqslant \log_t\dfrac{n}{2} + 1</tex>|proof=~~Так как <tex>n \geqslant 1</tex>, то корень B<tex>^{+}</tex>-дерева <tex>T</tex> содержит хотя бы один ключ, а все остальные узлы — хотя бы <tex>t - 1</tex> ключей. <tex>T</tex> имеет хотя бы <tex>2</tex> узла на высоте <tex>1</tex>, не менее <tex>2t</tex> узлов на глубине <tex>2</tex>, и так далее. То есть на глубине <tex>h</tex>, оно имеет хотя бы <tex>2t^{h-1}</tex> узловдеревьев. ~~Так как сами ключи хранятся только в листах, а во внутренних вершинах лишь их копии, то для <tex>n</tex> ключей~~ ~~<tex>n \geqslant 2t^{h-1}</tex>~~ ~~:<tex>t^{h-1} \leqslant \dfrac{n}{2}</tex>~~ ~~:<tex>h-1 \leqslant \log_t\dfrac{n}{2}</tex>~~ ~~:<tex>h \leqslant \log_t\dfrac{n}{2} + 1</tex>~~}} Как можно заметить, высота B<tex>^{+}</tex>-дерева не более чем на <tex>1</tex> отличается от [[B-дерево#Высота|высоты B-дерева]], то есть хранение информации только в листах почти не ухудшает эффективность дерева

== Структура ==

Свойства B<tex>B^{+}</tex> дерева аналогичны [[B-дерево#Структура| свойствам <tex>B</tex>-дерева]] (с учетом отличий описанных выше).

=== Структура узла ===

'''Node''' root // указатель на корень дерева

== Оценка высоты дерева ==

{{Теорема|statement=Если <tex>n \geqslant 1</tex>, то для <tex>B^{+}</tex>-дерева c <tex>n</tex> узлами и минимальной степенью <tex>t \geqslant 2</tex> высота

:<tex>h \leqslant \log_t\dfrac{n}{2} + 1</tex>

|proof=

Так как <tex>n \geqslant 1</tex>, то корень <tex>B^{+}</tex>-дерева <tex>T</tex> содержит хотя бы один ключ, а все остальные узлы — хотя бы <tex>t - 1</tex> ключей. <tex>T</tex> имеет хотя бы <tex>2</tex> узла на высоте <tex>1</tex>, не менее <tex>2t</tex> узлов на глубине <tex>2</tex>, и так далее. То есть на глубине <tex>h</tex>, оно имеет хотя бы <tex>2t^{h-1}</tex> узлов. Так как сами ключи хранятся только в листах, а во внутренних вершинах лишь их копии, то для <tex>n</tex> ключей

<tex>n \geqslant 2t^{h-1}</tex>

:<tex>t^{h-1} \leqslant \dfrac{n}{2}</tex>

:<tex>h-1 \leqslant \log_t\dfrac{n}{2}</tex>

:<tex>h \leqslant \log_t\dfrac{n}{2} + 1</tex>

}}

Как можно заметить, высота <tex>B^{+}</tex>-дерева не более чем на <tex>1</tex> отличается от [[B-дерево#Высота|высоты <tex>B</tex>-дерева]], то есть хранение информации только в листах почти не ухудшает эффективность дерева

== Операции ==

B<tex>B^{+}</tex>-деревья являются сбалансированными, поэтому время выполнения стандартных операций в них пропорционально высоте, то есть <tex>O(\log n)</tex>. Однако стоит заметить, что так как степень дерева зачастую выбирается большой, константа при выполнении операций тоже большая. Это связано с большим количеством ключей в узлах, которые необходимо сравнить. Но из-за небольшой высоты дерева это не сильно сказывается на скорости работы.

=== Поиск листа ===

'''Node''' find_leaf(T: '''BPlusTree''', key: '''int'''):

~~now~~ cur = T.root '''while''' ~~now~~cur.leaf <tex>\neq</tex> true '''for''' i = 0 '''to''' ~~now~~cur.key_num '''if''' i == ~~now~~cur.key_num '''or''' key < ~~now~~cur.key[i] ~~now~~ cur = ~~now~~cur.child[i]

'''break'''

'''return''' ~~now~~cur

=== Поиск ===

'''bool''' insert(T: '''BPlusTree''', key: '''int''', value: '''Info'''):

leaf = find_key(T, key)

~~'''for''' i = 0 '''to''' leaf.key_num~~ '''if''' key == <tex>\in</tex> leaf~~.key[i]~~ '''return false''' // Ищем позицию для нового ключа

pos = 0

'''while''' pos < leaf.key_num '''and''' leaf.key[pos] < key

++pos

// Вставляем ключ

'''for''' i = leaf.key_num '''downto''' pos + 1

leaf.key[i] = leaf.key[i - 1]

leaf.pointers[pos] = value

++leaf.key_num

'''if''' leaf.key_num == 2 * t // t {{---}} степень дерева

split(T, leaf) // Разбиваем узел

=== Разбиение узла ===

Разбиение на два узла происходит следующим образом: в первый добавляем первые <tex>t ~~- 1~~</tex> ключей, во второй последние <tex>t- 1</tex>. Если узел {{---}} лист, то оставшийся ключ также добавляется в ~~левое~~ правое поддерево, а его копия отправляется ~~в родительский~~ в родительский узел, где становится разделительной точкой для двух новых поддеревьев.

Если и родительский узел заполнен {{---}} поступаем аналогично, но не копируем, а просто перемещаем оставшийся перемещаем ключ в родительский узел, так как это просто копия. Повторяем пока не встретим незаполненный узел или не дойдем до корня. В последнем случае корень разбивается на два узла и высота дерева увеличивается.

Поскольку в родителя всегда отправляется минимальный ключ из второй половины, то каждый ключ, который хранится во внутренней вершине {{---}} это минимум правого поддерева для этого ключа.

[[Файл:B Plus tree insetring.png|1000px]]

'''void''' split(T: '''BPlusTree''', node: '''Node'''):

new_node = new_Node() //Создаем новый узел

// Перенаправляем right и left указатели

new_node.right = node.right

node.right.left = new_node

node.right = new_node

new_node.left = node

~~mid_key = node.key[t - 1]~~

~~new_node.key_num = t~~

// Перемещаем t - 1 значений и соответствующих им указателей в new_node

mid_key = node.key[t]

new_node.key_num = t - 1

node.key_num = t

'''for''' i = 0 '''to''' new_node.key_num - 1

new_node.key[i] = node.key[i + t+ 1] new_node.pointers[i] = node.pointers[i + t+ 1] new_node.child[i] = node.child[i + t+ 1]

new_node.child[new_node.key_num] = node.child[2 * t]

~~node.key_num = t - 1~~

'''if''' node.leaf

++~~node~~new_node.key_num

new_node.leaf = '''true'''

// Перемещаем в new_node оставшийся при разбиении элемент mid_key '''for''' i = new_node.key_num - 1 '''downto''' 1 new_node.key[i] = new_node.key[i - 1] new_node.pointers[i] = new_node.pointers[i - 1] new_node.key[0] = node.key[t] new_node.pointers[0] = node.pointers[t]

'''if''' node == T.root

T.root = new_Node() // Создаем новый корень T.root

T.root.key[0] = mid_key

T.root.child[0] = node

new_node.parent = node.parent

parent = node.parent

// Ищем позицию mid_key в отце

pos = 0

'''while''' pos < parent.key_num '''and''' parent.key[pos] < mid_key

++pos

// Добавляем mid_key в отца и направляем ссылку из него на new_node

'''for''' i = parent.key_num '''downto''' pos + 1

parent.key[i] = parent.key[i - 1]

leaf = find_key(T, key)

pos = 0

~~'''while''' pos < leaf.key_num '''and''' leaf.key[pos] < key~~ ~~++pos~~ '''if''' ~~pos == leaf.key_num '''or''' leaf.~~key~~[pos]~~ <tex>\~~neq~~notin</tex> ~~key~~leaf '''return false'''

'''else'''

delete_in_node(leaf, key) // Удалить ключ из вершины

'''void''' delete_in_node(tec: '''Node''', key: '''int'''):

'''if''' key <tex>\notin</tex> tec

'''return'''

// Ищем позицию удаляемого ключа

pos = 0

'''while''' pos < tec.key_num '''and''' tec.key[pos] < key

++pos

~~'''if''' pos =~~~~\neq~~// Удаляем ключ</~~tex~~span> ~~key~~ ~~'''return'''~~

'''for''' i = pos '''to''' tec.key_num - 1

tec.key[i] = tec.key[i + 1]

--left_sibling.key_num

++tec.key_num

// Перемещаем максимальный из left_sibling ключ на первую позицию в tec

'''for''' i = 1 '''to''' tec.key_num - 1

tec.key[i] = tec.key[i - 1]

tec.pointers[0] = left_sibling.pointers[left_sibling.key_num]

tec.child[0] = left_sibling.child [left_sibling.key_num + 1]

update(tec) // Обновить ключи на пути к корню

--right_sibling.key_num

++tec.key_num

// Перемещаем минимальный из right_sibling ключ на последнюю позицию в tec

tec.key[tec.key_num - 1] = right_sibling.key[0]

tec.pointers[tec.key_num - 1] = right_sibling.child[0]

tec.child[tec.key_num - 1] = right_sibling.pointers[0]

update(tec) // Обновить ключи на пути к корню

'''else'''

'''if''' left_sibling <tex>\neq</tex> null

~~left_sibling.right~~ // Сливаем tec~~.right~~ ~~tec.right.left =~~ и left_sibling

'''for''' i = 0 to tec.key_num - 1

left_sibling.key[left_sibling.key_num] = tec.key[i]

++left_sibling.key_num

left_sibling.child[left_sibling.key_num + 1] = tec.child[tec.key_num]

// Перенаправляем right и left указатели left_sibling.right = tec.right tec.right.left = left_sibling update(left_sibling) // Обновить ключи на пути к корню delete_in_node(left_sibling.parent, ~~max_key~~min_key(~~left_sibling~~tec)) // Удаляем разделительный ключ в отце

'''else'''

~~right_sibling.right.left = tec~~ // Сливаем tec~~.right =~~ и right_sibling~~.right~~

'''for''' i = 0 to tec.key_num - 1

tec.key[tec.key_num] = right_sibling.key[i]

++tec.key_num

tec.child[tec.key_num + 1] = right_sibling.child[right_sibling.key_num]

// Перенаправляем right и left указатели right_sibling.right.left = tec tec.right = right_sibling.right update(tec) // Обновить ключи на пути к корню delete_in_node(tec.parent, ~~max_key~~min_key(~~tec~~right_sibling)) // Удаляем разделительный ключ в отце

'''if''' T.root.key_num == 1

T.root = T.root.child[0]

== Где используется ==

Изначально структура предназначалась для эффективного поиска в блочно-ориентированной среде хранения {{---}} в частности, для файловых систем. Структура широко применяется в таких файловых системах, как NTFS<ref>[[wikipedia:NTFS |Wikipedia {{---}} NTFS]]</ref>, ReiserFS<ref>[[wikipedia:ReiserFS |Wikipedia {{---}} ReiserFS]]</ref>, NSS<ref>[[wikipedia:Novell Storage Services |Wikipedia {{---}} NSS]]</ref>, JFS<ref>[[wikipedia:JFS (file system) |Wikipedia {{---}} JFS]]</ref>, ReFS<ref>[[wikipedia:ReFS |Wikipedia {{---}} ReFS]]</ref>. Различные реляционные системы управления базами данных, такие как Microsoft SQL Server<ref>[[wikipedia:Microsoft SQL Server|Wikipedia {{---}} Microsoft SQL Server]]</ref>, Oracle Database<ref>[[wikipedia:Oracle Database|Wikipedia {{---}} Oracle Database]]</ref>, SQLite<ref>[[wikipedia:SQLite|Wikipedia {{---}} SQLite]]</ref> используют <tex>B^{+}</tex>-деревья для табличных индексов.

== См. также ==

* [[B-дерево]]

* [[2-3 дерево]]

== Примeчания ==

== Источники информации ==

* Д. Кнут «Искусство программирования. Сортировка и поиск», часть 6.2.4

* [https://en.wikipedia.org/wiki/B%2B_tree Wikipedia {{---}} B Plus tree]

* [https://en.wikipedia.org/wiki/B-tree Wikipedia {{---}} B tree]

* [https://www.cs.usfca.edu/~galles/visualization/BPlusTree.html B plus tree visualization]

[[Категория: Дискретная математика и алгоритмы]]

[[Категория: Структуры данных]]

[[Категория: Деревья поиска]]

Анонимный участник

188.162.65.17

Изменения

B+-дерево

Навигация

Персональные инструменты

Пространства имён

Варианты

Просмотры

Ещё

Поиск

Навигация

Инструменты