B+-дерево — различия между версиями
Mervap (обсуждение | вклад) |
Mervap (обсуждение | вклад) |
||
Строка 6: | Строка 6: | ||
== Отличия от B-дерева == | == Отличия от B-дерева == | ||
В B-дереве во всех вершинах хранятся ключи вместе с сопутствующей информацией. В B<tex>^{+}</tex>-деревьях вся информация хранится в листьях, а во внутренних узлах хранятся только копии ключей. Таким образом удается получить максимально возможную степень ветвления во внутренних узлах. Кроме того, листовой узел может включать в себя указатель на следующий листовой узел для ускорения последовательного доступа, что решает одну из главных проблем B-деревьев. | В B-дереве во всех вершинах хранятся ключи вместе с сопутствующей информацией. В B<tex>^{+}</tex>-деревьях вся информация хранится в листьях, а во внутренних узлах хранятся только копии ключей. Таким образом удается получить максимально возможную степень ветвления во внутренних узлах. Кроме того, листовой узел может включать в себя указатель на следующий листовой узел для ускорения последовательного доступа, что решает одну из главных проблем B-деревьев. | ||
+ | |||
+ | == Оценка высоты дерева == | ||
+ | {{Теорема|statement=Если <tex>n \geqslant 1</tex>, то для B<tex>^{+}</tex>-дерева c <tex>n</tex> узлами и минимальной степенью <tex>t \geqslant 2</tex> | ||
+ | :<tex>h \leqslant \log_t\dfrac{n}{2} + 1</tex> | ||
+ | |proof= | ||
+ | Так как <tex>n \geqslant 1</tex>, то корень B<tex>^{+}</tex>-дерева <tex>T</tex> содержит хотя бы один ключ, а все остальные узлы — хотя бы <tex>t - 1</tex> ключей. <tex>T</tex> имеет хотя бы <tex>2</tex> узла на высоте <tex>1</tex>, не менее <tex>2t</tex> узлов на глубине <tex>2</tex>, и так далее. То есть на глубине <tex>h</tex>, оно имеет хотя бы <tex>2t^{h-1}</tex> узлов. Так как сами ключи хранятся только в листах, а во внутренних вершинах лишь их копии, то для <tex>n</tex> ключей | ||
+ | <tex>n \geqslant 2t^{h-1}</tex> | ||
+ | |||
+ | :<tex>t^{h-1} \leqslant \dfrac{n}{2}</tex> | ||
+ | |||
+ | :<tex>h-1 \leqslant \log_t\dfrac{n}{2}</tex> | ||
+ | |||
+ | :<tex>h \leqslant \log_t\dfrac{n}{2} + 1</tex> | ||
+ | }} | ||
+ | |||
+ | Как можно заметить, высота B<tex>^{+}</tex>-дерева не более чем на 1 отличается от [[B-дерево#Высота|высоты B-дерева]], то есть хранение информации только в листах почти не ухудшает эффективность дерева | ||
== Структура == | == Структура == | ||
Строка 18: | Строка 34: | ||
'''Node''' child[] <span style="color:#008000"> // указатели на детей узла</span> | '''Node''' child[] <span style="color:#008000"> // указатели на детей узла</span> | ||
'''Info''' pointers[] <span style="color:#008000">// если лист {{---}} указатели на данные</span> | '''Info''' pointers[] <span style="color:#008000">// если лист {{---}} указатели на данные</span> | ||
− | '''Node''' | + | '''Node''' left<span style="color:#008000"> // указатель на левого брата</span> |
+ | '''Node''' right <span style="color:#008000"> // указатель на правого брата</span> | ||
=== Структура дерева === | === Структура дерева === | ||
'''struct''' BPlusTree | '''struct''' BPlusTree | ||
Строка 24: | Строка 41: | ||
'''Node''' root <span style="color:#008000"> // указатель на корень дерева</span> | '''Node''' root <span style="color:#008000"> // указатель на корень дерева</span> | ||
− | |||
− | |||
− | |||
− | |||
− | |||
− | |||
− | |||
− | |||
− | |||
− | |||
− | |||
− | |||
− | |||
− | |||
− | |||
== Операции == | == Операции == | ||
Строка 76: | Строка 78: | ||
leaf.pointers[pos + 1] = value | leaf.pointers[pos + 1] = value | ||
++leaf.key_num | ++leaf.key_num | ||
− | '''if''' leaf.key_num == t <span style="color:#008000"> // t {{---}} степень дерева</span> | + | '''if''' leaf.key_num == 2*t <span style="color:#008000"> // t {{---}} степень дерева</span> |
− | split(T, leaf) | + | split(T, leaf) <span style="color:#008000"> // Разбиваем узел</span> |
'''return true''' | '''return true''' | ||
Строка 87: | Строка 89: | ||
'''void''' split(T: '''BPlusTree''', node: '''Node'''): | '''void''' split(T: '''BPlusTree''', node: '''Node'''): | ||
new_node = new_Node() <span style="color:#008000"> //Создаем новый узел</span> | new_node = new_Node() <span style="color:#008000"> //Создаем новый узел</span> | ||
− | node. | + | new_node.right = node.right |
− | mid_key = node.key[t] | + | node.right.left = new_node |
+ | node.right = new_node | ||
+ | new_node.left = node | ||
+ | mid_key = node.key[t - 1] | ||
new_node.key_num = t | new_node.key_num = t | ||
'''for''' i = 0 '''to''' new_node.key_num - 1 | '''for''' i = 0 '''to''' new_node.key_num - 1 | ||
− | new_node.key[i] = node.key[i + t] | + | new_node.key[i] = node.key[i + t - 1] |
− | new_node.pointers[i] = node.pointers[i + t] | + | new_node.pointers[i] = node.pointers[i + t - 1] |
− | new_node.child[i] = node.child[i + t] | + | new_node.child[i] = node.child[i + t - 1] |
− | new_node.pointers[new_node.key_num] = node.pointers[2*t] | + | new_node.pointers[new_node.key_num] = node.pointers[2*t - 1] |
− | new_node.child[new_node.key_num] = node.child[2*t] | + | new_node.child[new_node.key_num] = node.child[2*t - 1] |
node.key_num = t - 1 | node.key_num = t - 1 | ||
Строка 102: | Строка 107: | ||
++node.key_num | ++node.key_num | ||
new_node.leaf = '''true''' | new_node.leaf = '''true''' | ||
− | mid_key = node.key[t | + | mid_key = node.key[t] |
'''if''' node == T.root | '''if''' node == T.root | ||
Строка 128: | Строка 133: | ||
'''if''' parent.key_num == 2*t | '''if''' parent.key_num == 2*t | ||
split(T, parent) | split(T, parent) | ||
+ | |||
+ | === Удаление === | ||
+ | Поскольку все ключи находятся в листах, для удаления в первую очередь необходимо найти листовой узел, в котором он находится. Если узел содержит не менее <tex>t - 1</tex> ключей, где <tex>t</tex> {{---}} это степень дерева, то удаление завершено. Иначе необходимо выполнить попытку перераспределения элементов, то есть добавить в узел элемент из левого или правого брата (не забыв обновить информацию в родителе). Если это невозможно, необходимо выполнить слияние с братом и удалить ключ, который указывает на удалённый узел. Объединение может распространяться на корень, тогда происходит уменьшение высоты дерева. | ||
== Примeчания == | == Примeчания == | ||
<references/> | <references/> |
Версия 20:17, 31 марта 2018
BB-дерева, сбалансированное -арное дерево поиска с переменным, но зачастую большим количеством потомков в узле. B -деревья имеют очень высокий коэффициент ветвления (число указателей из родительского узла на дочерние, обычно порядка 100 или более), что снижает количество операций ввода-вывода, требующих поиска элемента в дереве.
-дерево (англ. B -tree) — структура данных на основеСодержание
Где используется
Изначально структура предназначалась для эффективного поиска в блочно-ориентированной среде хранения — в частности, для файловых систем. Структура широко применяется в таких файловых системах, как NTFS[1], ReiserFS[2], NSS[3], JFS[4], ReFS[5]. Различные реляционные системы управления базами данных, такие как Microsoft SQL Server[6], Oracle Database[7], SQLite[8] используют B -деревья для табличных индексов.
Отличия от B-дерева
В B-дереве во всех вершинах хранятся ключи вместе с сопутствующей информацией. В B
-деревьях вся информация хранится в листьях, а во внутренних узлах хранятся только копии ключей. Таким образом удается получить максимально возможную степень ветвления во внутренних узлах. Кроме того, листовой узел может включать в себя указатель на следующий листовой узел для ускорения последовательного доступа, что решает одну из главных проблем B-деревьев.Оценка высоты дерева
Теорема: |
Если , то для B -дерева c узлами и минимальной степенью
|
Доказательство: |
Так как , то корень B -дерева содержит хотя бы один ключ, а все остальные узлы — хотя бы ключей. имеет хотя бы узла на высоте , не менее узлов на глубине , и так далее. То есть на глубине , оно имеет хотя бы узлов. Так как сами ключи хранятся только в листах, а во внутренних вершинах лишь их копии, то для ключей |
Как можно заметить, высота Bвысоты B-дерева, то есть хранение информации только в листах почти не ухудшает эффективность дерева
-дерева не более чем на 1 отличается отСтруктура
Свойства B свойствам B-дерева (с учетом отличий описанных выше).
дерева аналогичныСтруктура узла
struct Node bool leaf // является ли узел листом int key_num // количество ключей узла int key[] // ключи узла Node parent // указатель на отца Node child[] // указатели на детей узла Info pointers[] // если лист — указатели на данные Node left // указатель на левого брата Node right // указатель на правого брата
Структура дерева
struct BPlusTree int t // минимальная степень дерева Node root // указатель на корень дерева
Операции
B
-деревья являются сбалансированными, поэтому время выполнения стандартных операций в них пропорционально высоте.Поиск листа
Напишем вспомогательную функцию, которая будет возвращать лист, в котором должен находится переданный ей ключ. Определяем интервал и переходим к соответствующему сыну. Повторяем пока не дошли до листа.
Node find_leaf(T: BPlusTree, k: int): now = T.root while !now.leaf for i = 0 to now.key_num if i == now.key_num or key < now.key[i] now = now.ch[i] break return now
Поиск
Находим нужный лист через
_ и ищем нужный ключ в немДобавление ключа
Ищем лист, в который можно добавить ключ и добавляем его в список ключей. Если узел не заполнен, то добавление завершено. Иначе разбиваем узел на два узла. Будем считать, что в дереве не может находиться 2 одинаковых ключа, поэтому
будет возвращать был ли добавлен ключ.bool insert(T: BPlusTree, key: int, value: Info): leaf = find_key(T, key) for i = 0 to leaf.key_num if key == leaf.key[i] return false pos = 0 while pos < leaf.key_num and leaf.key[pos] < key ++pos for i = leaf.key_num downto pos + 1 leaf.key[i] = leaf.key[i-1] for i = leaf.key_num + 1 downto pos + 2 leaf.pointers[i] = leaf.pointer[i-1] leaf.key[pos] = key leaf.pointers[pos + 1] = value ++leaf.key_num if leaf.key_num == 2*t // t — степень дерева split(T, leaf) // Разбиваем узел return true
Разбиение узла
Разбиение на два узла происходит следующим образом: в первый добавляем первые
ключей, во второй оставшиеся . Первый ключ из второго узла копируется в родительский узел, где становится разделительной точкой для двух новых поддеревьев.Если и родительский узел заполнен — поступаем аналогично, но не копируем, а перемещаем ключ в родительский узел, так как это просто копия. Повторяем пока не встретим незаполненный узел или не дойдем до корня. В последнем случае корень разбивается на два узла и высота дерева увеличивается.
void split(T: BPlusTree, node: Node):
new_node = new_Node() //Создаем новый узел
new_node.right = node.right
node.right.left = new_node
node.right = new_node
new_node.left = node
mid_key = node.key[t - 1]
new_node.key_num = t
for i = 0 to new_node.key_num - 1
new_node.key[i] = node.key[i + t - 1]
new_node.pointers[i] = node.pointers[i + t - 1]
new_node.child[i] = node.child[i + t - 1]
new_node.pointers[new_node.key_num] = node.pointers[2*t - 1]
new_node.child[new_node.key_num] = node.child[2*t - 1]
node.key_num = t - 1
if node.leaf
++node.key_num
new_node.leaf = true
mid_key = node.key[t]
if node == T.root
T.root = new_Node()
T.root.key[0] = mid_key
T.root.child[0] = node
T.root.child[1] = new_node
T.root.key_num = 1;
node.parent = T.root
new_node.parent = T.root
else
new_node.parent = node.parent
parent = node.parent
pos = 0
while pos < parent.key_num and parent.key[pos] < mid_key
++pos
for i = parent.key_num downto pos + 1
parent.key[i] = parent.key[i-1]
for i = parent.key_num + 1 downto pos + 2
parent.child[i] = parent.child[i-1]
parent.key[pos] = mid_key
parent.child[pos + 1] = new_node
++parent.key_num
if parent.key_num == 2*t
split(T, parent)
Удаление
Поскольку все ключи находятся в листах, для удаления в первую очередь необходимо найти листовой узел, в котором он находится. Если узел содержит не менее
ключей, где — это степень дерева, то удаление завершено. Иначе необходимо выполнить попытку перераспределения элементов, то есть добавить в узел элемент из левого или правого брата (не забыв обновить информацию в родителе). Если это невозможно, необходимо выполнить слияние с братом и удалить ключ, который указывает на удалённый узел. Объединение может распространяться на корень, тогда происходит уменьшение высоты дерева.