Рандомизированное бинарное дерево поиска

Рандомизированное бинарное дерево поиска (англ. Randomized binary search tree, RBST) — структура данных, реализующая бинарное дерево поиска.

Содержание

1 Основная идея и связанные определения
2 Операции
- 2.1 Вставка
- 2.2 Удаление
3 Анализ времени работы
4 См. также
5 Ссылки
6 Литература

Основная идея и связанные определения

Как известно, можно подобрать такую последовательность операций с бинарным деревом поиска в наивной реализации, что его глубина будет пропорциональна количеству ключей, а следовательно запрос будет выполняться за [math]O(n)[/math]. Поэтому, если поддерживать инвариант "случайности" в дереве, то можно добиться того, что математическое ожидание глубины дерева будет небольшим. Дадим рекурсивное определение рандомизированного бинарного дерева поиска (RBST).

Определение:

Пусть — бинарное дерево поиска. Тогда

Если [math]T[/math] пусто, то оно является рандомизированным бинарным деревом поиска.
Если [math]T[/math] непусто (содержит [math]n[/math] вершин, [math]n \gt 0[/math]), то [math]T[/math] — рандомизированное бинарное дерево поиска тогда и только тогда, когда его левое и правое поддеревья ([math]L[/math] и [math]R[/math]) оба являются RBST, а также выполняется соотношение

.

Из определения следует, что каждый ключ в RBST размера n может оказаться корнем с вероятностью 1/n.

Идея RBST состоит в том, что хранимое дерево постоянно является рандомизированным бинарным деревом поиска. Далее подробно будет описана реализация операций над RBST, которая позволит добиться этой цели. Заметим лишь, что хранение RBST в памяти ничем не отличается от хранения обычного дерева поиска: хранится указатель на корень; в каждой вершине хранятся указатели на её сыновей.

(Похожие идеи используются в декартовом дереве, поэтому во многих русскоязычных ресурсах термин рандомизированное бинарное дерево поиска используется как синонимическое название декартового дерева и декартового дерева по неявному ключу)

Операции

Операции обхода дерева, поиска ключа, поиска максимума/минимума, поиск следующего/предыдущего элемента выполняются как в обычном дереве поиска, т.к. не меняют структуру дерева.

Вставка

Рассмотрим рекурсивный алгоритм вставки ключа [math]x[/math] в RBST, состоящее из [math]n[/math] вершин. С вероятностью [math]\frac{1}{n+1}[/math] вставим ключ в корень дерева, используя процедуру insert_at_root. С вероятностью вставим его в правое поддереао, если он больше корня, или в левое поддерево, если меньше. Ниже приведён псевдокод процедуры вставки insert, процедуры insert_at_root, а также процедуры split(k), разбивающей дерево на два поддерева, в одном из которых все ключи строго меньше [math]k[/math], а в другом больше, либо равны; приведена достаточно очевидная рекурсивная реализация. (через Node обозначен тип вершины дерева, дерево представляется как указатель на корень)

Node insert (T, x)
   int r = random(0..size(T))
   if (r == n)
      T = insert_at_root(T, x)
   if (x < root.key)
      T = insert(T.left, x)
   else
      T = insert(T.right, x)
   return T

Заметим, что если дерево пусто, то insert с вероятностью 1 делает [math]x[/math] корнем.

// вставляет ключ x в дерево T
Node insert_at_root (T, x)
   // создать пустые L и R
   L = RBST()
   R = RBST()
   split(T, x, L, R)
   // создать пустое T
   T = RBST()
   T.key = x
   T.left = L
   T.left = R
   return T

// разделяет дерево T по x
// результат: деревья L и R
split (T, x, L, R)
   if (size(T) == 0)
      // создать пустые L и R
      L = RBST()
      R = RBST()
   else if (x < T.key)
      R = T
      split (T.left, x, L, R.left)
   else
      L = T
      split (T.right, x, L.right, R)

Далее рассмотрим как меняется свойство дерева быть рандомизированным при вставке в него ключей.

Лемма:

Пусть после операции split от дерева по ключу были получены деревья и . Тогда если было рандомизированным бинарным деревом поиска, содержащим множество ключей , то деревья и — рандомизированные бинарные деревья поиска, содержащие соответственно множества ключей и .

Доказательство:

Применим индукцию по [math]n[/math] — размеру дерева. Если [math]n = 0[/math], то лемма верна (получим два пустых дерева).

Пусть [math]n \gt 0[/math], и лемма верна при всех меньших размерах дерева.. Пусть также . Если [math]x \gt y[/math], то [math]y[/math] — корень [math]T_{L}[/math], [math]L[/math] — левое поддерево [math]T_{L}[/math], а split рекурсивно вызовется от [math]R[/math], разделив его на [math]R'[/math] — правое поддерево [math]T_{L}[/math] —, и [math]T_{R}[/math], которые по предположению индукции будут рандомизированными бинарными деревьями поиска. Но [math]L[/math] также является RBST, т.к. является поддеревом [math]T[/math].

Итак для того, чтобы доказать, что [math]T_{L}[/math] — рандомизированное бинарное дерево поиска, осталось показать, что любая его вершина [math]z[/math] с вероятностью [math]\frac{1}{m}[/math] окажется в корне, где [math]m[/math] — размер [math]T_{L}[/math]. Действительно:

(пусть событие [math]A[/math] — [math]z[/math] является коренем [math]T_{L}[/math])

Случай, когда симметричен рассмотренному.

Теорема:

Если — рандомизированное бинарное дерево поиска, содержащее множество ключей , , тогда процедура insert(x, T) вернёт рандомизированное бинарное дерево поиска , содержащее множество ключей .

Доказательство:

Применим индукцию по [math]n[/math] — размеру дерева. Если [math]n = 0[/math], то теорема верна: после операции insert(x, T) получим дерево с корнем [math]x[/math] и двумя пустыми поддеревьями.

Пусть [math]n \gt 0[/math], и теорема верна при всех меньших размерах дерева. Возможны два случая: [math]x[/math] вставляется в корень или рекурсивно в одно из поддеревьев.

В первом случае правое и левое поддеревья [math]x[/math] по лемме являются рандомизированными BST, а также вероятность того, что [math]x[/math] окажется в корне, равна [math]\frac{1}{n + 1}[/math]. Т.е. новое дерево — рандомизированное BST.

Во втором случае корень у дерева останется прежнем. Заметим, что для каждого вероятность быть корнем была , а корнем он останется с вероятностью , тогда для каждого вероятность быть корнем равна . По предположению же индукции поддерево, в которое вставляется становится рандомизированным бинарным деревом поиска; а т.к. другое поддерево корня было рандомизированным, то новое дерево — рандомизированное BST.

Пусть [math]K = \{x_{1}, ... ,x_{n}\}[/math] — множество ключей, — какая-то фиксированная перестановка элементов [math]K[/math]. Из приведённой выше теоремы следует, что если в изначально пустое дерево [math]T[/math] добавлять ключи P по порядку, то получим дерево [math]T[/math], являющееся RBST.

Удаление

Алгоритм удаления использует операцию merge — слияние двух деревьев, удовлетворяющих условию: все ключи в одном из деревьев меньше ключей во втором. Для того, чтобы удалить некоторый ключ [math]x[/math] из RBST сначала найдём вершину с этим ключом в дереве, используя стандартный алгоритм поиска. Если вершина не найдена, то выходим из алгоритма; в противном случае сливаем правое и левое поддеревья [math]x[/math] (заметим, что ключи в левом поддереве меньше ключей в правом), удаляем [math]x[/math], а корень образовавшегося дерева делаем новым сыном родителя [math]x[/math]. Псевдокод процедур удаления и слияния приведён ниже.

// удаляет ключ x из дерева T
Node remove(T, x)
   if (size(T) == 0)
      // выйти, вернув пустое дерево
      T = RBST()
      return T
   if (x < T.key)
      T.left = remove(T.left, x)
   else if (x > T.key)
      T.right = remove(T.right, x)
   else
      // создать пустое дерево Q
      Q = RBST()
      Q = merge(T.left, T.right)
      T = Q
   return T

// сливает деревья L и R
// результат: дерево T
Node merge(L, R)
   int m = L.size
   int n = R.size
   int total = m + n
   if (total == 0)
      // вернуть пустое T
      T = RBST()
      return T
   int r = random(1..total)
   if (r < m)
      // с вероятностью m / (m + n)
      L.right = merge(L.right, R)
      return L
   if (r < m)
      // с вероятностью m / (m + n)
      R.left = merge(L, R.left)
      return R

Докажем, что данный алгоритм оставляет рандомизированное дерево рандомизированным.

Лемма:

Пусть и — рандомизированные бинарные деревья поиска, содержащие соответственно множества ключей и , причём (то есть каждый элемент меньше каждого элемента ). Тогда операция merge(L, R) вернёт рандомизированное бинарное дерево поиска, содержащее множество ключей = .

Доказательство:

Пусть [math]m[/math] и [math]n[/math] — размеры [math]L[/math] и [math]R[/math] соответственно. Применим индукцию по [math]m[/math] и [math]n[/math]. Если [math]m = 0[/math] или [math]n = 0[/math], то лемма верна.

Пусть и , пусть также или . Без потери общности делаем корнем . После рекурсивного слияния правого поддерева и получим рандомизированное бинарное дерево поиска (которое является правым поддеревом нового дерева). Левое же поддерево нового дерева тоже рандомизированное. Также верно, что для любого вероятность быть корнем равна : действительно, вероятность оказаться в корне в до слияния равна , вероятность того, что элемент останется корнем после слияния равна ; осталось применить правило умножения.

Теорема:

Если — рандомизированное бинарное дерево поиска, содержащее множество ключей , тогда процедура remove(x, T) вернёт рандомизированное бинарное дерево поиска , содержащее множество ключей

Доказательство:

Если удаляемый элемент отсутствует в дереве, то теорема верна.

Пусть [math]x \in T[/math] (дерево не пусто), [math]n[/math] — размер [math]T[/math]. Докажем теорему по индукции по [math]n[/math]. Для [math]n = 1[/math] теорема очевидным образом верна. Пусть [math]n \gt 1[/math], и предположим, что теорема верна для всех деревьев размера меньше [math]n[/math].

Возможно два случая: если [math]x[/math] — корень [math]T[/math], то по лемме, после удаления получим рандомизированное бинарное дерево поиска; если же [math]x[/math] — не корень [math]T[/math], то [math]x[/math] рекурсивно удаляется из поддерева исходного дерева, и по предположению индукции после удаления получаем рандомизированное BST. Осталось лишь показать, что для любого [math]y \in T, y \neq x[/math] вероятность оказаться корнем после удаления равна [math]\frac{1}{n - 1}[/math].

Введём обозначения:

событие [math]A[/math] — [math]y[/math] является коренем [math]T'[/math];

событие [math]B[/math] — [math]x[/math] был корнем [math]T[/math] (до операции remove);

событие [math]C[/math] — [math]y[/math] стал корнем [math]T'[/math] после операции merge (но до этого им не являлся);

событие [math]D[/math] — [math]y[/math] был корнем [math]T[/math] (до операции remove);

Тогда:

.

Анализ времени работы

Очевидно, что время работы приведённых алгоритмов пропорционально глубине дерева. Но т.к. математическое ожидание глубины рандомизированного бинарного дерева поиска есть [math]O (\log n)[/math], где [math]n[/math] — число вершин в дереве, то математическое ожидание времени работы поиска, вставки и удаления — также [math]O (\log n)[/math].

См. также

Ссылки

Литература

Martinez, Conrado; Roura, Salvador (1997), "Randomized binary search trees", Journal of the ACM 45
Seidel, Raimund; Aragon, Cecilia R. «Randomized Search Trees», 1996 г.
Randomized binary search trees. Lecture notes from a course by Jeff Erickson at UIUC.

Рандомизированное бинарное дерево поиска

Содержание

Основная идея и связанные определения

Операции

Вставка

Удаление

Анализ времени работы

См. также

Ссылки

Литература

Навигация

Персональные инструменты

Пространства имён

Варианты

Просмотры

Ещё

Поиск

Навигация

Инструменты