Изменения

Перейти к: навигация, поиск

Fusion tree

2494 байта добавлено, 19:42, 4 сентября 2022
м
rollbackEdits.php mass rollback
'''Fusion tree''' {{---}} дерево поиска, позволяющее хранить <tex>n</tex> <tex>w</tex>-битных положительных чисел, используя <tex>O(n)</tex> памяти, и выполнять операции поиска за время <tex>O(\log_{w} n)</tex>. Эта Это статическая структура данных , которая была впервые предложенна предложена в 1990 году М. Фредманом (M. Fredman) и Д. Уиллардом (D. Willard).
==Структура==
Fusion tree {{---}} это [[B-дерево|B-дерево]], такое что:
* у всех вершин, кроме листьев, <tex>B = w^{1/5}</tex> детей;,* время, за которое определяется , в каком поддереве находится вершина, равно <tex>O(1)</tex>.Такое время работы достигается за счет хранения дополнительной информации в вершинах. Построим [[:Сверхбыстрый_цифровой_бор|цифровой бор ]] из ключей узла дерева. Всего <tex>B - 1</tex> ветвящихся вершин. Биты, соответствующие уровням дерева, в которых происходит ветвление, назовем существенными и обозначим их номера <tex>b_0, b_1, b_2\ldots b_rb_{r-1}</tex>(индексация идет от листьев, которые соответствуют концу числа, т.е. младшему разряду). Количество существенных битов <tex>r</tex> не больше чем <tex>B - 1</tex>(все ребра на уровне детей ветвящейся вершины {{---}} обведены на рисунке {{---}} являются существенными битами, и так как ветвящихся вершин <tex>B - 1</tex>, значит, и количество уровней с детьми не больше <tex>B - 1</tex>, поскольку на одном уровне могут быть несколько ветвящихся вершин).
[[Файл:Fusion.png||500x400px|center|визуализация функции sketch]]
В Fusion tree вместе с ключом <tex>x</tex> хранится <tex>sketch(x)</tex> {{--- }} последовательность битов <tex>x_{b_{r-1}}\ldots x_{b_0}</tex>. {{Утверждение|id=sketch. |author=|about=|statement=<tex>Sketchsketch</tex> сохраняет порядок, то есть <tex>sketch(x) < sketch(y)</tex>, если <tex>x < y</tex>.|proof=Рассмотрим наибольший общий префикс <tex>x</tex> и <tex>y</tex>. Тогда следующий бит определяет их порядок и одновременно является существенным битом. Поэтому, если <tex>x < y</tex>, то и <tex>sketch(x) < sketch(y)</tex>.}}
==Поиск вершины==
Пусть <tex>\left \{ a_1,a_2\ldots a_k\right \}</tex> - множество ключей узла, отсортированных по возрастанию, <tex>q</tex> - ключ искомой вершины, <tex>l</tex> - количество бит в <tex>sketch(q)</tex>.
===Параллельное сравнение===
Сначала найдем <tex>succ(sketch(q))</tex> и <tex>pred(sketch(q))</tex>. Определим <tex>sketch(node)</tex> как число, составленное из едениц и <tex>sketch(a_i)</tex>, то есть <tex>sketch(node) = 1sketch(a_1)1sketch(a_2)\ldots 1scetch(a_k)</tex>. Вычтем из <tex>sketch(node)</tex> число <tex>shetch(q) \times \underbrace{\overbrace{00\ldots 1}^{l + 1 bits}\overbrace{00\ldots 1}^{l + 1 bits}\ldots \overbrace{00\ldots 1}^{l + 1 bits}}_{k(l + 1) bits} = 0sketch(q)\ldots 0sketch(q)</tex>. В начале каждого блока, где <tex>sketch(a_i) \geqslant sketch(q)</tex>, сохранятся еденицы. Применим к получившемуся побитовое <tex>AND</tex> c <tex>\displaystyle \sum_{i=0}^{k-1}2^{i(l+1)+l}</tex>, чтобы убрать лишние биты.
Пусть <tex>L \left \{ a_1,a_2\ldots a_B\right \}</tex> {{---}} множество ключей узла, отсортированных по возрастанию, <tex>q</tex> {{---}} ключ искомой вершины, <tex>l</tex> {{---}} количество бит в <tex>sketch(q)</tex>. Сначала найдем такой ключ <tex>a_i</tex>, что <tex>sketch(a_i) \leqslant sketch(q) \leqslant sketch(a_{i+1})</tex>. Хотя положение <tex>sketch(q)</tex> среди <tex>sketch(a_j)</tex> не всегда эквивалентно положению <tex>q</tex> среди <tex>a_j</tex>, зная соседние элементы <tex>sketch(q)</tex>, мы можем найти <tex>succ(q)</tex> и <tex>pred(q)</tex>. ===Поиск следующего и предыдущего по sketch=== {{Утверждение|id=prefix. |author=|about=|statement=Среди значений <tex>succ(y)</tex> и <tex>pred(y)</tex> по <tex>sketch(y)</tex> есть <tex>succ</tex> или <tex>pred</tex> по значению <tex>y</tex>.|proof= Рассмотрим <tex>y</tex>. У него есть существенные биты и некоторый элемент <tex>x</tex>, с которым у <tex>y</tex> наибольший общий префикс (настоящий, а не по <tex>sketch</tex>). Биты из <tex>sketch</tex>, находящиеся в префиксе совпадают, значит <tex>succ</tex> и <tex>pred</tex> <tex>y</tex> среди <tex>sketch</tex> должны быть такими же среди <tex>x</tex>, и один из них имеет дальше бит <tex>0</tex> (а другой <tex>1</tex>) и с ним может быть больше других общих бит в <tex>sketch</tex>. То есть либо <tex>succ</tex>, либо <tex>pred</tex> имеют следующий существенный бит такой же, как и у <tex>y</tex>. Поэтому если значение равно <tex>0</tex>, то <tex>x</tex> наибольший среди значений с меньшим <tex>sketch</tex>, и, аналогично для <tex>1</tex>, наименьший среди больших.}} [[Файл:FusionTree.png|400x400px|thumb|right|Пример случая, когда <tex>sketch(a_i) \leqslant sketch(q) \leqslant sketch(a_{i+1})</tex>, но <tex>a_{i+1}\leqslant q</tex> <tex>sketch(a_i) = 00, sketch(q) = 00, sketch(a_{i+1}) = 01, \\ a_i = 0000, a_{i+1} = 0010, q = 0101</tex> ]] Рассмотрим ключи. Порядок для них по <tex>sketch</tex> совпадает с их порядком. Тогда для некоторых <tex>a_i</tex> и <tex>a_{i+1}</tex>: <tex>sketch(a_i) \leqslant sketch(q) \leqslant sketch(a_{i+1})</tex>, в таком случае <tex>a_i</tex> и <tex>a_{i+1}</tex> его <tex>succ</tex> и <tex>pred</tex> по <tex>sketch</tex>. Тогда среди них есть настоящий (не по <tex>sketch</tex>) <tex>succ</tex> или <tex>pred</tex> по доказанному, а понять это мы можем просто сделав сравнение с <tex>q</tex>. ===Поиск реального следующего и предыдущего===Мы умеем находить реальный <tex>succ</tex> и <tex>pred</tex> по <tex>succ</tex> и <tex>pred</tex> от <tex>sketch(y)</tex>, теперь покажем, как искать <tex>succ</tex> и <tex>pred</tex> от <tex>sketch(y)</tex> за <tex> O(1)</tex>. Определим <tex>sketch(node)</tex> как число, составленное из единиц и <tex>sketch(a_i)</tex>, то есть <tex>sketch(node) = 1sketch(a_1)1sketch(a_2)\ldots 1scetch1sketch(a_k) - </tex>. Вычтем из <tex>sketch(node)</tex> число <tex>sketch(q) \times \underbrace{\overbrace{00\ldots 1}^{l + 1 bits}\overbrace{00\ldots 1}^{l + 1 bits}\ldots \overbrace{00\ldots 1}^{l + 1 bits}}_{k(l + 1) bits} = 0sketch(q)\ldots 0sketch(q)</tex>. В начале каждого блока, где <tex>sketch(a_i) \geqslant sketch(q)</tex> AND , сохранятся единицы. Применим к получившемуся побитовое <tex>\&</tex> c <tex>\displaystyle \sum_{i=0}^{k-1}2^{i(l+1)+l}</tex>, чтобы убрать лишние биты. <tex>L = (1sketch(a_1)\ldots 1sketch(a_k) - 0sketch(q)\ldots 0sketch(q)) \& \displaystyle \sum_{i=0}^{k-1}2^{i(l+1)+l}=\overbrace{c_10\ldots0}^{l+1 bits} \ldots \overbrace{c_k0\ldots0}^{l+1 bits}</tex>
Если <tex>sketch(a_i)< sketch(q)</tex>, то <tex>c_i = 0</tex>, в противном случае <tex>c_i = 1</tex>.
Теперь надо найти количество едениц единиц в ''<tex>L''</tex>. Умножим ''<tex>L'' </tex> на <tex>\underbrace{0\ldots 01}_{l + 1 bits}\ldots \underbrace{0\ldots 01}_{l+1 bits}</tex>, тогда все еденицы единицы сложатся в первом блоке результата, и, чтобы получить количество еденицединиц, сдвинем его вправо. ===Succ(q) и pred(q)===Пусть на <tex>sketch(a_ik-1) \leqslant sketchcdot(q) \leqslant sketch(a_{il +1})</tex>бит. Среди всех ключей наибольший общий префикс с В таком случае мы получим некоторое <tex>q2^i</tex> будет иметь или <tex>a_i</tex> или , где <tex>a_{i+1}</tex>. Сравнивая является реальным <tex>a\;XOR\;qpred(x)</tex> и , а <tex>b\;XOR\;qi</tex>, найдем какой из ключей имеет наибольший общий префикс мы можем получить с помощью цикла де Брёйна === Индекс наиболее старшего бита с <tex>q</tex> (наименьшнее значение соответствует наибольшей длине).помощью цикла де Брёйна ===
Предположим, что <tex>p'''Последовательность де Брёйна''' {{---}} последовательность </texmath> - наибольший общий перфиксa_1, а <tex>y</tex> его длина\;\ldots, <tex>a_j\;a_t</texmath> - ключ, имеющий наибольший общий префикс с <tex>q</tex> элементы которой принадлежат заданному конечному множеству (обычно рассматривают множество <texmath>j = i</tex> или <tex>i+\{0,\;1</tex>). * если <tex>q>a_j</tex>, то <tex>y + \;\ldots,\;k-1\}</texmath> бит <tex>q</tex> равен еденице), а и все подпоследовательности <texmath>y a_{i+ 1</tex> бит <tex>a_j</tex> равен 0. Так как общий префикс <tex>a_j</tex> и <tex>q</tex> является наибольшим}, то не существет ключа с префиксом <tex>p1</tex>.Значит, <tex>q</tex> больше всех ключей с префиксом меньшим либо равным <tex>p</tex>. Найдем <tex>pred(e)</tex> <tex>e = p01\;\ldots 11</tex>, который одновременно будет <tex>равен pred(q)</tex>\;* если <tex>q<a_ja_{i+n}</texmath> - найдем <tex>succ(e)</tex>, заданной длины <texmath>e = p10\ldots 00</tex>. Это будет <tex>succ(q)n</texmath>различны.
Длина наибольшего общего префикса двух ''w''-битных чисел ''a'' и ''b'' может быть вычислена с помощью нахождения индекса наиболее значащего бита в побитовом <tex>XOR</tex> ''a'' и ''b''.==Вычисление sketch(x)==Чтобы найти sketch за константное время, будем вычислять <tex>sketch(x)</tex>, имеющий все существенные биты в нужном порядке, но содержащий лишние нули.Примеры ====
Примеры циклов де Брёйна для <math>k=2</math> с периодом <tex>2, 4, 8, 16</tex>:* <tex>01</tex> (содержит подпоследовательности <tex>0</tex> и <tex>1</tex>) уберем все несущественные биты * <tex>x' = x0011</tex> (содержит подпоследовательности <tex>00, 01, 11, 10</tex>)* <tex>00010111 (000, 001, 010, 101, 011, 111, 110, 100)</tex> AND * <tex>\displaystyle \sum_{i=0}^{r-1}2^{b_i}0000100110101111</tex>;
2) умножением на некоторое число <tex>M = \displaystyle\sum_{i=0}^{r-1}2^{m_i}</tex> сместим все существенные биты в блок меньшего размера== Получение индекса по значению степени двойки ====
Возьмем цикл де Брёйна для <tex>n</tex> <tex>x'\times M = \displaystyle(\sum_{i=0}^{r\ldots n-1}x_{b_i}2^{b_i})</tex> и запишем его как число <tex>b</tex> (\sum_{iдля <tex>8</tex> цикл де Брёна равен <tex>00010111</tex>, а значение <tex>b =0}23</tex>). Умножим это число на <tex>2^{ri</tex>, сдвинем его влево на <tex>i</tex>, а затем обратно вправо на <tex>n-1}k</tex> (<tex>k</tex> такое, что <tex>n=2^k</tex>). <tex>(b \texttt{m_i<<}i) = \sum_texttt{i=0>>}^{r(n-1}\sum_k)</tex>), тогда получившееся число {j=0}^{r-1--}x_{b_i}<tex>i</tex>-ая подстрока длины <tex>k</tex> данного цикла де Брёйна. Эту перестановку опозначим за <tex>p</tex> и тогда применив ее к <tex>(2^i\cdot x) \texttt{b_i+m_j>>}(n-k))</tex> получим <tex>i</tex>: <tex>p</tex> в данном случае такое, что <tex>k</tex>;подряд идущих бит равны значению, на сколько мы сдвинули.
3==Вычисление sketch(x) применив побитовое AND уберем ==Чтобы найти <tex>sketch</tex> за константное время, будем вычислять <tex>supersketch(x)</tex>, имеющий все существенные биты в нужном порядке, но содержащий лишние нули. Хотя <tex>supersketch</tex> содержит лишние нули, мы сможем вычислять его быстрее, чем обычный <tex>sketch</tex>, потому что нам не придется каждый раз идти по всем битам числа, выбирая стоящие на нужных нам местах. Будем использовать <tex>supersketch</tex> вместо <tex>sketch</tex> {{---}} это никак не повлияет на сравнение, поскольку добавленные биты, появившиеся в результате умножения;равны нулю и стоят на одних и тех же местах для всех <tex>sketch</tex>
# Уберем все несущественные биты <tex>x' = x \& \displaystyle \sum_{i=0}^{r-1}2^{b_i}</tex>.# Умножением на некоторое заранее вычисленное число <tex>M = \displaystyle\sum_{i=0}^{r-1}2^{m_i}</tex> сместим все существенные биты в блок меньшего размера: <tex>x'\times M = \displaystyle\left( \sum_{i=0}^{r-1}x_{b_i} 2^{b_i} \right) \left(\sum_{i=0}^{r-1}2^{m_i}\right) = \sum_{i=0}^{r-1}\sum_{j=0}^{r-1}x_{b_i}2^{b_i+m_j}</tex>.# Применив побитовое <tex>\;AND &</tex>, уберем лишние биты, появившиеся в результате умножения: <tex>\;left(\displaystyle\sum_{i=0}^{r-1}\sum_{j=0}^{r-1}x_{b_i} 2^{b_i+m_j} \right) \& \displaystyle\sum_{i=0}^{r-1}2^{b_i+m_i} = \sum_{i=0}^{r-1}x_{b_i}2^{b_i+m_i}</tex>;.# Сделаем сдвиг вправо на <tex>m_0 + b_0</tex> бит.
4) сделаем сдвиг вправо на <tex>m_0 + b_0</tex> бит.
{{Утверждение
|id=
|author=
|about=
|statement=Дана последовательность из <tex>r </tex> чисел <tex>b_0<b_1<\ldots <b_{r-1}</tex>. Тогда существует последовательность <tex>m_0<m_1\ldots <m_{r-1}</tex>, такая что: 1) # все <tex>b_i + m_j</tex> различны, для <tex>0\leqslant i,j \leqslant r-1</tex>; 2) # <tex>b_1 b_0 + m_2m_0\leqslant b_2 b_1 + m_2m_1\leqslant \ldots \leqslant b_{r-1} + m_{r-1}</tex>; 3) # <tex>(b_{r-1} + m_{r-1}) - (b_0 + m_0) \leqslant r^4</tex>.
|proof=
Выберем некоторые <tex>m_i'</tex>, таким образом, чтобы <tex>m_i' + b_k \not\equiv m_j' + b_p</tex>. Предположим, что мы выбрали <tex>m_1' \ldots m_{t-1}'</tex>. Тогда <tex>m_t' \ne m_i' + b_j - b_k \; \forall i,j,k</tex>. Всего <tex>t\times r\times r < r^3 </tex> недопустимых значений для <tex>m_t'</tex>, поэтому всегда можно найти хотя бы одно значение.
Чтобы получить <tex>m_i</tex>, выбираем каждый раз наименьшее <tex>m_i'</tex> и прибавляем подходящее число кратное <tex>r^3</tex>, такое что <tex>m_i+c_i < m_{i+1}+c_{i+1} \leqslant m_i+c_i+r^3</tex>.
}}
Первые два условия необходимы для того, чтобы сохранить все существенные биты в нужном порядке. Третье условие позволит поместить <tex>sketch </tex> узла в <tex>w</tex>-битный тип. Так как <tex>r \leqslant B-1</tex>, то <tex>sketch(node)</tex> будет занимать <tex>B(r^4 + 1) \leqslant B((B-1)^4 + 1) \leqslant = B^5 = (w(B^{2 - 2B + 1/5})^5 2 + 1)= w </tex> бит.==Индекс наиболее значащего бита==Чтобы найти в w-битном числе ''x'' индекс самого старшего бита, содержащего еденицу, разделим ''x'' на <tex>B(B^4 + 4B^2 + 1 - 4B^3 + 2B^2 -4B + 1) = B^5 - 4B^3 + 6B^2 - 4B + 2 \sqrt{w}leqslant B^5 </tex> блоков по <tex>\sqrt{w}</tex> бит.<tex>x = \underbrace{0101}_{\sqrt{(w}}\; \underbrace{0000}_{\sqrt{w}}\; \underbrace{1000}_{\sqrt^{w}}\; \underbrace{1101}_{\sqrt{w}}</tex>. Далее найдем первый непустой блок и индекс первого еденичного бита в нем. 1)Поиск непустых блоков. a. Определим какие блоки имеют еденицу в первом бите. Применим побитовое AND к ''x'' и константой ''F'' <tex> $$\begin{array}{r}AND\begin{array}{r}x = 0101\; 0000\; 1000\; 1101\\F = 1000\; 1000\; 1000\; 1000\\\end{array} \\\hline\begin{array}{r}t_1 = \underline{0}000\; \underline{0}000\; \underline{1}000\; \underline{1}000\end{array}\end{array}$$</tex> b. Определим, содержат ли остальные биты еденицы.  Вычислим <tex>x\; XOR \; t_1</tex>. <tex> $$\begin{array5}{r}XOR\begin{array}{r}t_1 )^5 = 0000\; 0000\; 1000\; 1000\\x = 0101\; 0000\; 1000\; 1101\\\end{array} \\\hline\begin{array}{r}t_2 = 0\underline{101}\; 0\underline{000}\; 0\underline{000}\; 0\underline{101}\end{array}\end{array}$$</tex> Вычтем от <tex>F\; t_2w </tex>. Если какой-нибудь бит <tex>F</tex> обнулится, значит, соответствующий блок содержит еденицы. при всех <tex> $$\begin{array}{r}-\begin{array}{r}F = 1000\; 1000\; 1000\; 1000\\t_2 = 0\underline{101}\; 0\underline{000}\; 0\underline{000}\; 0\underline{101}\\\end{array} \\\hlineB \begin{array}{r}t_3 = \underline{0}xxx\; \underline{1}000\; \underline{geqslant 1}000\; \underline{0}xxx\end{array}\end{array}$$</tex>
Чтобы найти блоки, содержащие еденицы, вычислим <tex>t_3\; XOR \; F</tex>==См.Также==
<tex> $$\begin{array}{r}XOR\begin{array}{r}F = 1000\; 1000\; 1000\; 1000\\t_3 = \underline{0}xxx\; \underline{1}000\; \underline{1}000\; \underline{0}xxx\\\end{array} \\\hline\begin{array}{r}t_4 = \underline{1}000\; \underline{0}000\; \underline{0}000\; \underline{1}000\end{array}\end{array}$$</tex>*[[:Сверхбыстрый_цифровой_бор|Сверхбыстрый цифровой бор]]
c. Первый бит в каждом блоке <tex>y = t_1\; OR \;t_4</tex> содержит еденицу, если соответствующий блок ''x'' ненулевой.*[[:2-3_дерево|2-3 дерево]]
<tex>$$\begin{array}{r}OR\begin{array}{r}t_1 = \underline{0}000\; \underline{0}000\; \underline{1}000\; \underline{1}000\\t_4 = \underline{1}000\; \underline{0}000\; \underline{0}000\; \underline{1}000\\\end{array} \\\hline\begin{array}{r}y Источники информации == \underline{1}000\; \underline{0}000\; \underline{1}000\; \underline{1}000\end{array}\end{array}$$</tex>
2) найдем sketch(y), чтобы сместить все нужные биты в один блок* [http://www.sciencedirect. Существенными битами в данном случае будут первые биты каждого блока, поэтому <tex>b_i = \sqrt{w} - 1 + i\sqrt{w}<com/science/article/pii/tex>0022000093900404 M. L. Fredman and D. E. Willard. Surpassing the information theoretic barrier with fusion trees. Journal of Computer and System Sciences, 1993]
Будем использовать <tex>m_j = w - (\sqrt{w}-1) - j\sqrt{w} +j<* [http://tex>courses.csail. Тогда <tex>b_i + m_j = w + (i - j)\sqrt{w} + j<mit.edu/tex>6. Все суммы различны при <tex>0\leqslant i, j < \sqrt{w} <897/spring03/scribe_notes/L4/tex>lecture4. Все <tex>b_i + m_i = w + i</tex> возрастаютpdf MIT CS 6.897: Advanced Data Structures: Lecture 4, Fusion Trees, и <tex>(b_{\sqrt{w} - 1} + m_{\sqrt{w} - 1}) - (b_0 + m_0) = \sqrt{w} - 1</tex>Prof. Чтобы найти sketchErik Demaine (ySpring 2003), умножим y на m и сдвинем вправо на w бит.]
3)Найдем первый ненулевой блок* [http://courses.csail. Для этого надо найти первую еденицу в sketch(y)mit. Как и при поиске succ(sketch(q)) и pred(sketch(q)) используем параллельное сравнение sketch(y) с <tex>2^0, 2^1 \ldots 2^{\sqrt{w} - 1}<edu/tex>6. В результате сравнения получим номер первого ненулевого блока <tex>c<851/spring12/scribe/tex>lec12.pdf MIT CS 6.851: Advanced Data Structures: Lecture 12, Fusion Tree notes, Prof.Erik Demaine (Spring 2012)]
4) найдем номер <tex>d<* [http:/tex> первого еденичного бита в найденном блоке так же как и в предыдущем пункте/www.lektorium.tv/lecture/?id=14292 А.С. Станкевич.Дополнительные главы алгоритмов, лекция 6]
5) инедекс наиболее значащего бита будет равен <tex>c\sqrt{w}+d<* [http:/tex>/en.wikipedia.org/wiki/Fusion_tree Wikipedia — Fusion tree]
Каждый шаг выполняется за <tex>O(1)<* [https:/tex>, поэтому всего потребуется <tex>O(1)</tex> времени, чтобы найти индексen.wikipedia.org/wiki/De_Bruijn_sequence Wikipedia — De Bruijn sequence][[Категория:Дискретная математика и алгоритмы]][[Категория:Деревья поиска]][[Категория:Структуры данных]]
1632
правки

Навигация