Splay-дерево — различия между версиями

Версия 12:27, 9 июня 2013

Сплей-дерево (Splay-tree) — это двоичное дерево поиска. Оно позволяет находить быстрее те данные, которые использовались недавно. Относится к разряду сливаемых деревьев. Сплей-дерево было придумано Робертом Тарьяном и Даниелем Слейтером в 1983 году.

Эвристики

Для того, чтобы доступ к недавно найденным данным был быстрее, надо, чтобы эти данные находились ближе к корню. Этого мы можем добиться, используя различные эвристики:

Move to Root — совершает повороты вокруг ребра [math](x, p)[/math], где [math]x[/math] - найденная вершина, [math]p[/math] - ее предок, пока [math]x[/math] не окажется корнем дерева. Однако можно построить такую последовательность операций, что амортизированное время доступа к вершине будет [math] O(n) [/math].
Splay — также совершает повороты, но чередует различные виды поворотов, благодаря чему достигается логарифмическая амортизированная оценка. Она будет подробно описана ниже.

Операции со splay-деревом

Splay(Tree, x)

"Splay" делится на 3 случая:

Zig

Если [math]p[/math] - корень дерева с сыном [math]x[/math], то совершаем один поворот вокруг ребра [math](x, p)[/math], делая [math]x[/math] корнем дерева. Данный случай является крайним и выполняется только один раз в конце, если изначальная глубина [math]x[/math] была нечетной.

Zig-Zig

Если [math]p[/math] - не корень дерева, а [math]x[/math] и [math]p[/math] - оба левые или оба правые дети, то делаем поворот ребра [math](p, g)[/math], где [math]g[/math] отец [math]p[/math], а затем поворот ребра [math](x, p)[/math].

Zig-Zag

Если [math]p[/math] - не корень дерева и [math]x[/math] - левый ребенок, а [math]p[/math] - правый, или наоборот, то делаем поворот вокруг ребра [math](x, p)[/math], а затем поворот нового ребра [math](x, g)[/math], где [math]g[/math] - бывший родитель [math]p[/math].

Данная операция занимает [math]O(d)[/math] времени, где [math]d[/math] - длина пути от [math]x[/math] до корня.

Find(Tree, x)

Эта операция выполняется как для обычного бинарного дерева, только после нее запускается операция Splay.

Merge(Tree1, Tree2)

У нас есть два дерева [math]Tree1[/math] и [math]Tree2[/math], причём подразумевается, что все элементы первого дерева меньше элементов второго. Запускаем Splay от самого большого элемента в дереве [math]Tree1[/math] (пусть это элемент [math]i[/math]). После этого корень [math]Tree1[/math] содержит элемент [math]i[/math], при этом у него нет правого ребёнка. Делаем [math]Tree2[/math] правым поддеревом [math]i[/math] и возвращаем полученное дерево.

Split(Tree, x)

Запускаем Splay от элемента [math]x[/math] и возвращаем два дерева, полученные отсечением правого или левого поддерева от корня, в зависимости от того, содержит корень элемент больше или не больше, чем [math]x[/math].

Add(Tree, x)

Запускаем Split(Tree, x), который нам возвращает деревья [math]Tree1[/math] и [math]Tree2[/math], их подвешиваем к [math]x[/math] как левое и правое поддеревья соответственно.

Remove(Tree, x)

Запускаем Splay от [math]x[/math] элемента и возвращаем Merge от его детей.

Анализ операции splay

Амортизационный анализ сплей-дерева проводится с помощью метода потенциалов. Потенциалом рассматриваемого дерева назовём сумму рангов его вершин. Ранг вершины [math]x[/math] — это величина, обозначаемая [math]r(x)[/math] и равная [math]\log_2 C(x)[/math], где [math]C(x)[/math] — количество вершин в поддереве с корнем в [math]x[/math].

Лемма:

Амортизированное время операции splay вершины в дереве с корнем не превосходит

Доказательство:

Проанализируем каждый шаг операции splay. Пусть [math]r'[/math] и [math]r[/math] — ранги вершин после шага и до него соответственно, [math]p[/math] — предок вершины [math]x[/math], а [math]g[/math] — предок [math]p[/math] (если есть).

Разберём случаи в зависимости от типа шага:

Zig. Поскольку выполнен один поворот, то время амортизированное время выполнения шага (поскольку только у вершин [math]x[/math] и [math]p[/math] меняется ранг). Ранг вершины [math]p[/math] уменьшился, поэтому [math]T \le 1 + r'(x) - r(x)[/math]. Ранг вершины [math]x[/math] увеличился, поэтому [math]r'(x) - r(x) \ge 0[/math]. Следовательно, [math]T \le 1 + 3r'(x) - 3r(x)[/math].

Zig-zig. Выполнено два поворота, амортизированное время выполнения шага . Поскольку после поворотов поддерево с корнем в [math]x[/math] будет содержать все вершины, которые были в поддереве с корнем в [math]g[/math] (и только их), поэтому [math]r'(x) = r(g)[/math]. Используя это равенство, получаем: , поскольку [math]r(x) \le r(p)[/math].

Далее, так как [math]r'(p) \le r'(x)[/math], получаем, что .

Мы утверждаем, что эта сумма не превосходит [math]3(r'(x) - r(x))[/math], то есть, что . Преобразуем полученное выражение следующим образом: .

Из рисунка видно, что [math]C'(g) + C(x) \le C'(x)[/math], значит, сумма выражений под логарифмами не превосходит единицы. Далее, рассмотрим сумму логарифмов . При [math]a + b \le 1[/math] произведение [math]ab[/math] по неравенству между средними не превышает [math]1/4[/math]. А поскольку логарифм - функция возрастающая, то [math]\log_2 ab \le -2[/math], что и является требуемым неравенством.

Zig-zag. Выполнено два поворота, амортизированное время выполнения шага . Поскольку [math]r'(x) = r(g)[/math], то . Далее, так как [math]r(x) \le r(p)[/math], то .

Мы утверждаем, что эта сумма не превосходит [math]2(r'(x) - r(x))[/math], то есть, что . Но, поскольку - аналогично доказанному ранее, что и требовалось доказать.

Итого, получаем, что амортизированное время шага zig-zag не превосходит .

Поскольку за время выполнения операции splay выполняется не более одного шага типа zig, то суммарное время не будет превосходить , поскольку утроенные ранги промежуточных вершин сокращаются (входят в сумму как с плюсом, так и с минусом). Тогда суммарное время работы splay , где - число элемнтов в дереве.

Статическая оптимальность сплей-дерева

Теорема:

Если к ключам , ..., , сложенным в сплей-дерево выполняется запросов, к -му ключу осуществляется запросов, где > 0, то суммарное время работы не превышает , где , - шенноновская энтропия

Доказательство:

Известно, что - шенноновская энтропия.
Пусть - количество вершин в поддереве с корнем в x. А [math]r(x) = \log_{2} s(x)[/math] - ранг вершины.
Обозначим за [math]r[/math] корень splay-дерева. Из предыдущей теоремы известно, что

Пусть [math]w(x_i) = p_i =[/math] [math] {k_i \over m}[/math], тогда [math]k_i = p_i * m[/math].

Так как вершина - корень splay-дерева, то очевидно, что , следовательно . Поэтому , ч.т.д.

Splay-деревья по неявному ключу

Splay-дерево по неявному ключу полностью аналогично декартову дереву по неявному ключу, неявным ключом также будет количество элементов дерева, меньших данного. Аналогично, будем хранить вспомогательную величину [math]C(x)[/math] — количество вершин в поддереве. К операциям, которые уже были представлены в декартовом дереве, добавляется splay, но пересчет [math]C(x)[/math] в ней тривиален, так как мы точно знаем, куда перемещаются изменяемые поддеревья.

Литература

@@ Строка 76: / Строка 76: @@
 Если к ключам <tex>1</tex>, ..., <tex>n</tex>, сложенным в сплей-дерево выполняется <tex>m</tex> запросов, к <tex>i</tex>-му ключу осуществляется <tex>k_i</tex> запросов, где <tex>k_i</tex> > 0, то суммарное время работы не превышает <tex>O(m * H(p_1, p_2, .., p_n))</tex>, где <tex>p_i = k_i / m</tex>, <tex>H</tex> - шенноновская энтропия
 |proof=
+Известно, что <tex>H(p_1, p_2, .., p_n) = -c * \displaystyle \sum_{i=1}^n (p_i * \log_{2}p_i)</tex> - шенноновская энтропия.<br>
+Пусть <tex>s(x) = \displaystyle \sum_{y} w(y)</tex> - количество вершин в поддереве с корнем в x. А <tex>r(x) = \log_{2} s(x)</tex> - ранг вершины.<br>
+Обозначим за <tex>r</tex> корень splay-дерева.
+Из предыдущей теоремы известно, что <tex>a_{splay} \leqslant 1+3(r(r)-r(x))</tex><br>
+Пусть <tex dpi="130">w(x_i) = p_i =</tex> <tex dpi="180"> {k_i \over m}</tex>, тогда <tex dpi="130">k_i = p_i * m</tex>.<br>
+<tex>m+3mr(r)-3 \displaystyle \sum_{i=1}^n k_ir(x_i) \leqslant m+3mr(r)-3 \displaystyle \sum_{i+1}^n k_i\log_{2}w(x_i) =</tex> <tex> m+3mr(r)-3 \displaystyle \sum_{i=1}^n (p_i*m*\log_{2}p_i) = m(1+3r(r)-3 \displaystyle \sum_{i=1}^n p_i\log_{2}p_i) = (*)</tex>
+Так как вершина <tex>r</tex> - корень splay-дерева, то очевидно, что <tex>s = \displaystyle \sum_{y} w(y) = 1</tex>, следовательно <tex>r(r) = \log_{2}s(r)=0</tex>. Поэтому <tex>(*) = m(1+H(p_1,...,p_n)) = O(mH(p_1,...,p_n))</tex>, ч.т.д.
 }}