Изменения

Алгоритм Укконена

612 байт добавлено, 16:59, 27 ноября 2018

→‎Асимптотика алгоритма с использованием суффиксных ссылок

|definition= '''Неявное суффиксное дерево''' (англ. ''implicit suffix tree, IST'') строки <tex>S</tex> {{---}} это суффиксное дерево, построенное для строки <tex>S</tex> без добавления <tex>\$</tex>.}}

[[Файл:ExampleUkkonen2.png|400px|thumb|right|Пример построения суффиксного дерева алгоритмом Укконена.]]

Алгоритм последовательно строит неявные суффиксные деревья для всех префиксов исходного текста <tex>S = s_{1}s_{2}~~...~~\ldots s_{n}</tex>. На <tex>i</tex>-ой фазе неявное суффиксное дерево <tex>\tau_{i-1}</tex> для префикса <tex>s[1..\ldots i-1]</tex> достраивается до <tex>\tau_{i}</tex> для префикса <tex>s[1..\ldots i]</tex>. Достраивание происходит следующим образом: для каждого суффикса подстроки <tex>s[1..\ldots i-1]</tex> необходимо спуститься от корня дерева до конца этого суффикса и дописать символ <tex>s_i</tex>.

Алгоритм состоит из <tex>n</tex> фаз. На каждой фазе происходит продление всех суффиксов текущего префикса строки, что требует <tex>O(n^2)</tex> времени. Следовательно, общая асимптотика алгоритма составляет <tex>O(n^3)</tex>.

== Продление суффиксов ==

Ниже приведены возможные случаи, которые могут возникнуть при добавлении символа <tex>s_{i}</tex> ко всем суффиксам префикса <tex>s[1..\ldots i-1]</tex>.

{| border="1" cellpadding="3" cellspacing="0" style="text-align:center" width=75%

!style="background:#f2f2f2"|Случай

|-

|style="background:#ffffff"|''1. Продление листа''

|style="background:#ffffff"|Пусть суффикс <tex>s[k..\ldots i-1]</tex> заканчивается в листе. Добавим <tex>s_{i}</tex> в конец подстроки, которой помечено ребро, ведущее в этот лист.

|style="background:#ffffff"|[[Файл:ExampleUkkonen3.png|300px]]

|-

|style="background:#ffffff" rowspan="2" |''2. Ответвление''

|style="background:#ffffff"|а) Пусть суффикс <tex>s[k..\ldots i-1]</tex> заканчивается в вершине, не являющейся листом, из которой нет пути по символу <tex>s_{i}</tex>. Создадим новый лист, в который из текущей вершины ~~ведет~~ ведёт дуга с пометкой <tex>s_{i}</tex>.

|style="background:#ffffff"|[[Файл:ExampleUkkonen4.png|300px]]

|-

|style="background:#ffffff"|б) Пусть суффикс <tex>s[k..\ldots i-1]</tex> заканчивается на ребре с меткой <tex>s[l..\ldots r]</tex> в позиции <tex>p-1(l \leqslant p \leqslant r)</tex> и <tex>s_{p} \ne s_{i}</tex>. Разобьем текущее ребро новой вершиной на <tex>s[l..\ldots p-1]</tex> и <tex>s[p..\ldots r]</tex> и подвесим к ней еще одного ребенка с дугой, помеченной <tex>s_{i}</tex>.

|style="background:#ffffff"|[[Файл:ExampleUkkonen5.png|300px]]

|-

|style="background:#ffffff"|''3. Ничего не делать''

|style="background:#ffffff"|Пусть суффикс <tex>s[k..\ldots i-1]</tex> заканчивается в вершине, из которой есть путь по <tex>s_{i}</tex>. Тогда ничего делать не надо.

|style="background:#ffffff"|[[Файл:ExampleUkkonen6.png|300px]]

|}

{{Определение

|definition= Пусть <tex>x\alpha</tex> обозначает произвольную строку, где <tex>x</tex> {{---}} ее её первый символ, а <tex>\alpha</tex> {{---}} оставшаяся подстрока (возможно пустая). Если для внутренней вершины <tex>v</tex> с путевой меткой <tex>x\alpha</tex> существует другая вершина <tex>s(v)</tex> с путевой меткой <tex>\alpha</tex>, то ссылка из <tex>v</tex> в <tex>s(v)</tex> называется '''суффиксной ссылкой''' (англ. ''suffix link'').

}}

{{Лемма|id=l3

Для любой внутренней вершины <tex>v</tex> суффиксного дерева существует суффиксная ссылка, ведущая в некоторую внутреннюю вершину <tex>u</tex>.

|proof=

Рассмотрим ~~внутренную~~ внутреннюю вершину <tex>v</tex> с путевой меткой <tex>s[j..\ldots i]</tex>. Так как эта вершина внутренняя, ее её путевая метка ветвится справа в исходной строке. Тогда очевидно подстрока <tex>s[j+1..\ldots i]</tex> тоже ветвится справа в исходной строке, и ей соответствует некоторая внутренняя вершина <tex>u</tex>. По определению суффиксная ссылка вершины <tex>v </tex> ~~ведет~~ ведёт в <tex> u</tex>.

}}

[[Файл:ExampleUkkonen7.png|300px|thumb|right|Использование суффиксных ссылок.]]

Рассмотрим применение суффиксных ссылок. Пусть только что был продлён суффикс <tex>s[j..\ldots i-1]</tex> до суффикса <tex>s[j..\ldots i]</tex>. Теперь с помощью построенных ссылок можно найти конец суффикса <tex>s[j+1..\ldots i-1]</tex> в суффиксном дереве, чтобы продлить его до суффикса <tex>s[j+1..\ldots i]</tex>. Для этого надо пройти вверх по дереву до ближайшей внутренней вершины <tex>v</tex>, в которую ~~ведет~~ ведёт путь, помеченный <tex>s[j..\ldots r]</tex>. У вершины <tex>v</tex> точно есть суффиксная ссылка (о том, как строятся суффиксные ссылки, будет сказано позже, а пока можно просто поверить). Эта суффиксная ссылка ~~ведет~~ ведёт в вершину <tex>u</tex>, которой соответствует путь, помеченный подстрокой <tex>s[j+1..\ldots r]</tex>. Теперь от вершины <tex>u</tex> следует пройти вниз по дереву к концу суффикса <tex>s[j+1..\ldots i-1]</tex> и продлить его до суффикса <tex>s[j+1..\ldots i]</tex>.

Можно заметить, что подстрока <tex>s[j+1..\ldots i-1]</tex> является суффиксом подстроки <tex>s[j..\ldots i-1]</tex>. Следовательно, после перехода по суффиксной ссылке в вершину, помеченную путевой меткой <tex>s[j+1..\ldots r]</tex>, можно дойти до места, ~~которму~~ которому соответствует метка <tex>s[r+1..\ldots i-1]</tex>, сравнивая не символы на рёбрах, а лишь длину ребра по первому символу рассматриваемой части подстроки и длину самой этой подстроки. Таким образом можно спускаться вниз сразу на целое ребро.

=== Построение суффиксных ссылок ===

Легко увидеть, что в процессе построения суффиксного дерева уже построенные суффиксные ссылки никак не изменяются. Поэтому осталось сказать, как построить суффиксные ссылки для созданных вершин. Рассмотрим новую внутреннюю ~~вершина~~ вершину <tex>v</tex>, которая была создана в результате продления суффикса <tex>s[j..\ldots i-1]</tex>. Вместо того, чтобы искать, куда должна указывать суффиксная ссылка вершины <tex>v</tex>, поднимаясь от корня дерева для этого, перейдем к продлению следующего суффикса <tex>s[j+1..\ldots i-1]</tex>. И в этот момент можно проставить суффиксную ссылку для вершины <tex> v</tex>. Она будет указывать либо на существующую вершину, если следующий суффикс закончился в ней, либо на новую созданную. То есть суффиксные ссылки будут обновляться с запаздыванием. Внимательно посмотрев на все три правила продления суффиксов, можно осознать, что для вершины <tex> v </tex> точно найдётся на следующей фазе внутренняя вершина, в которую должна вести суффиксная ссылка.

=== Оценка числа переходов ===

{{Определение

|definition= '''Глубиной вершины''' <tex>d(v)</tex> назовем число ~~ребер~~ рёбер на пути от корня до вершины <tex>v</tex>.}}

{{Лемма|id=l4

|statement=

При переходе по суффиксной ссылке глубина уменьшается не более чем на <tex>1</tex>.

|proof=

[[Файл:ExampleUkkonen8.png|200px|center|]]

~~|proof=~~ Заметим, что на пути <tex>A</tex> в дереве по суффиксу <tex>s[j+1..\ldots i]</tex> не более чем на одну вершину меньше, чем на пути <tex>B</tex> по суффиксу <tex>s[j..\ldots i]</tex>. Каждой вершине <tex>v</tex> на пути <tex>B</tex> соответствует вершина <tex>u</tex> на пути <tex>A</tex>, в которую ~~ведет~~ ведёт суффиксная ссылка. Разница в одну вершину возникает, если первому ребру в пути <tex>B</tex> соответсвует метка из одного символа <tex>s_{j}</tex>, тогда суффиксная ссылка из вершины, в которую ~~ведет~~ ведёт это ребро, будет вести в корень.

}}

{{Лемма|id=l5

|about=о числе переходов внутри фазы

|statement=

Число переходов по ~~ребрам~~ рёбрам внутри фазы номер <tex>i</tex> ~~не превышает~~ равно <tex>4iO(i)</tex>.

|proof=

Оценим количество переходов по ~~ребрам~~ рёбрам при поиске конца суффикса. Переход до ближайшей внутренней вершины уменьшает высоту на <tex>1</tex>. Переход по суффиксной ссылке уменьшает высоту не более чем на <tex>1</tex> (по лемме, доказанной выше). ~~Значит в течение одной фазы вверх~~ А потом высота увеличивается, пока мы переходим по рёбрам вниз. Так как высота не ~~более~~ может увеличиваться больше глубины дерева, а на каждой <tex>2ij</tex> ~~раз. Но внутри одной фазы начальная глубина~~ -ой итерации мы уменьшаем высоту не ~~меньше конечной (так как длины суффиксов убывают до~~ более, чем на <tex>12 </tex>), ~~поэтому вниз мы могли пройти~~ то суммарно высота не ~~более~~ может увеличиться больше чем на <tex>2i</tex> ~~ребер~~. Итого ~~получаем оценку~~ , число переходов по рёбрам за одну фазу в сумме составляет <tex>4iO(i)</tex>.

}}

=== ~~Асимтотика~~ Асимптотика алгоритма с использованием суффиксных ссылок ===

~~Благодаря суффиксным ссылкам~~ Теперь в начале каждой фазы мы только один раз спускаемся от корня, а ~~дольше делаем~~ дальше используем переходы за по суффиксным ссылкам. По доказанной [[#l5 | лемме]] переходов внутри фазы будет <tex>O(1i)</tex> ~~между концами суффиксов, а таких переходов, по доказанной выше лемме, не более~~ . А так как фаза состоит из <tex>O(i)</tex> ~~на текущей итерации. Следовательно~~итераций, то амортизационно получаем, ~~количество действий~~ что на одной итерации ~~снижается с~~ будет выполнено <tex>O(~~n^2)</tex> до <tex>O(n~~1)</tex>действий. ~~Таким образом общая~~ Следовательно, асимптотика алгоритма улучшилась до <tex>O(n^2)</tex>.

==Линейный алгоритм==

Чтобы улучшить время работы данного алгоритма до <tex>O(n)</tex>, нужно использовать линейное количество памяти, поэтому метка каждого ребра будет храниться как два числа {{---}} позиции ее её самого левого и самого правого символов в исходном тексте.

{{Лемма|id=l1

|about= Правило 3 заканчивает дело

|statement=

В любой фазе, если правило продления 3 применяется в продолжении суффикса, начинающего в позиции <tex>j</tex>, оно же и будет ~~реализовываться~~ применяться во всех дальнейших продолжениях (от <tex>j+1</tex> по <tex>i+1</tex>) до конца фазы. ~~<br>~~

|proof=

При использовании правила продолжения 3 путь, помеченный <tex>s[j..\ldots i-1]</tex> в текущем дереве, должен продолжаться символом <tex>i+1</tex>, и точно так же продолжается путь, помеченный <tex>s[j+1..\ldots i-1]</tex>, поэтому правило 3 применяется в продолжениях <tex>j+1, \ j+2, ~~...~~\ldots, i+1</tex>.

}}

Когда используется 3-е правило продления суффикса, никакой работы делать не нужно, так как требуемый суффикс уже в дереве есть. Поэтому можно заканчивать текущую итерацию после первого же использования этого правила.

Так как лист навсегда останется листом, ~~зададим~~ можно задать метку ребра ведущего в этот лист как <tex>s[j..\ldots x]</tex>, где <tex>x</tex> {{---}} ссылка на переменную, хранящую конец текущей подстроки. На следующих итерациях к этому ребру может применяться правило ответвления, но при этом будет меняться только левый(начальный) индекс <tex>j</tex>. Таким образом мы сможем удлинять все суффиксы, заканчивающиеся в листах за <tex>O(1)</tex>.

~~Будем называть самым длинным не уникальным суффиксом суффикс~~Следовательно, ~~который заканчиватся~~ на ~~ребре и имеет максимальную длину среди всех таких суффиксов. Заметим~~каждой фазе <tex>i</tex> алгоритм реально работает с суффиксами в диапазоне от <tex>j^*</tex> до <tex>k, ~~что так как суффиксы~~\ k \leqslant i</tex>, ~~продленные по второму правилу, заканчиваются в листах и далее будут продляться за~~ а не от <tex>O(1)</tex>до <tex>i</tex>. Действительно, ~~то на очередной итерации мы можем начинать продлять суффиксы не с~~ если суффикс <tex>s[~~1..~~j \ldots i-12]</tex>~~, а с самого длинного не уникального~~ был продлён до суффикса <tex>s[j~~^*..~~\ldots i-1]</tex>~~, т.е. суффикса на котором мы остановились~~ на прошлой ~~итерации~~фазе по правилу 1, ~~применив пустое правило продления~~то он и дальше будет продлеваться по правилу 1 (о чём говорит [[#l1 | лемма]]). ~~Следовательно~~Если он был продлён по правилу 2, то была создана новая листовая вершина, значит, ~~храня ссылку~~ на ~~место остановки на предыдущей итерации, мы можем не спускаться от корня к концу~~ текущей фазе <tex> i </tex> этот суффикс будет продлён до суффикса <tex>s[j~~^*.~~\ldots i]</tex> по листовой вершине.Поэтому после применения правила 3 на суффиксе <tex>s[k \ldots i-1]</tex> ~~суффикса~~текущую фазу можно завершить, а следующую начать сразу ~~продлевать его символом~~ с <tex>~~s_i~~j^* = k</tex>.

=== Итоговая оценка времени работы ===

В течение работы алгоритма создается не более <tex>O(n)</tex> ~~листов, так как в исходном тексте <tex>O(n)</tex> суффиксов. По~~ вершин по [[Сжатое_суффиксное_дерево#Количество_вершин | леммео размере суффиксного дерева для строки]] внутренних вершин в дереве меньше чем листьев, следовательно, всего вершин в получившемся дереве будет <tex>O(n)</tex>. Все суффиксы, которые заканчиваются в листах, благодаря [[#l1|первой лемме]] на каждой итерации мы увеличиваем на текущий символ по умолчанию за <tex>O(1)</tex>. Текущая фаза алгоритма ~~идет пока мы явно не продлим все суффиксы или, по [[#l2|второй лемме]]~~будет продолжаться, пока не будет использовано правило продления 3. ~~При явном продлении суффикса всегда создается новый лист~~Сначала неявно продлятся все листовые суффиксы, ~~в котором он заканчивается~~а потом по правилам 2.а) и 2.б) будет создано несколько новых внутренних вершин. Так как вершин не может быть создано больше, ~~не сложно заметить~~чем их есть, ~~что этот суффикс~~ то амортизационно на ~~всех последующих итерация~~ каждой фазе будет ~~продлеваться по правилу 1(за~~ создано <tex>O(1)</tex>~~), тогда~~ вершин. Так как мы на ~~всех <tex>n</tex> итерациях суммарно~~ каждой фазе начинаем добавление суффикса не ~~может быть сделано более~~ с корня, а с индекса <tex>~~O(n)~~j*</tex> ~~явных и неявных продлений~~, ~~так же теперь мы не спускаемся от корня к концу первого суффикса~~ на ~~текущей итерации за <tex>O(n)</tex>~~котором в прошлой фазе было применено правило 3, ~~а сразу~~то используя немного модифицированный вариант [[#l5 | леммы о числе переходов внутри фазы]] нетрудно показать, что суммарное число переходов по рёбрам за все <tex>~~O(1)~~n</tex>~~, начинаем его продление, тогда одна итерация в среднем будет выполняться за~~ фаз равно <tex>O(1n)</tex>. Таким образом , при использовании всех ~~приведенных~~ приведённых эвристик, алгоритм Укконена работает за <tex>O(n)</tex>.

== Минусы алгоритма Укконена ==

~~Не смотря~~ Несмотря на то, что данный алгоритм является одним из самых простых в понимании алгоритмов для построения суффиксных деревьев и использует online подход, у него есть ~~серьезные~~ серьёзные недостатки, из-за которых его нечасто используют на практике:# Размер суффиксного дерева сильно превосходит входные данные, поэтому при очень больших входных данных алгоритм Укконена сталкивается с проблемой ''memory bottleneck problem''(другое ее её название ''thrashing'')<ref>[http://dspace.library.uvic.ca:8080/bitstream/handle/1828/2901/ThesisBarsky16july.pdf?sequence=1 Marina Barsky {{---}} Suffix trees for very large inputs.]</ref>.# Для несложных задач, таких как поиск подстроки, проще и эффективней использовать, другие алгоритмы (например, поиск подстроки с помощью [[Префикс-функция | префикс-~~функцию~~функции]]).# ~~Существенно использует размер алфавита. Чтобы отвечать~~ При внимательном просмотре видно, что на самом деле алгоритм работает за время <tex>O(n \cdot |\Sigma|)</tex>, используя столько же памяти, так как для ответа на запрос о ~~существований~~ существовании перехода по текущему символу за <tex>O(1)</tex> ~~нужно~~ необходимо хранить линейное количество информации от размера алфавитав каждой вершине. Поэтому, если алфавит очень большой требуется чрезмерный ~~объем~~ объём памяти. ~~Если же экономить~~ Можно сэкономить на памяти ~~или если изначально алфавит неизвестен~~, ~~то время на запрос ухудшится до~~ храня в каждой вершине только те символы, по которым из неё есть переходы, но тогда поиск перехода будет занимать <tex>O(\log |\Sigma|)</tex>времени.

# Константное время на одну итерацию {{---}} это амортизированная оценка, в худшем случае одна фаза может выполняться за <tex>O(n)</tex> времени. Например, алгоритм Дэни Бреслауера и Джузеппе Итальяно<ref>[https://books.google.ru/books?id=sGDXz53FwM4C&lpg=PP11&ots=utJ8jnql5h&dq=Dany%20Breslauer%2C%20Giuseppe%20F.%20Italiano%3A%20Near%20Real-Time%20Suffix%20Tree%20Construction%20via%20the%20Fringe%20Marked%20Ancestor%20Problem.&hl=ru&pg=PA156#v=onepage&q&f=false Dany Breslauer, Giuseppe F. Italiano {{---}} Near Real-Time Suffix Tree Construction via the Fringe Marked Ancestor Problem.]</ref>, хоть и строит дерево за <tex>O(n \log \log n)</tex>, но на одну итерацию в худшем случае тратит <tex>O(\log \log n)</tex> времени.

# На сегодняшний день существуют кэш-эффективные алгоритмы, ~~которые превосходят~~ превосходящие алгоритм Укконена на современных процессорах<ref>[https://www.google.ru/url?sa=t&rct=j&q=&esrc=s&source=web&cd=6&ved=0CFMQFjAF&url=http%3A%2F%2Fwww.researchgate.net%2Fprofile%2FYuanyuan_Tian%2Fpublication%2F30848628_Practical_methods_for_constructing_suffix_trees%2Flinks%2F0046352b38e5dc849e000000.pdf&ei=Bh4sVZL8EIausAHujoDoBg&usg=AFQjCNEAr63t7zZnWZPKYIZLjQQInbelSg&sig2=jAPs1IULJvJZt8xwx5PYtA&bvm=bv.90491159,d.bGg&cad=rja Yuanyuan Tian, Sandeep Tata, Richard A. Hankins, Jignesh M. Patel {{---}} Practical methods for constructing suffix trees.]</ref>.# ~~Так же~~ Также алгоритм предполагает, что дерево полностью должно быть загружено в оперативную память~~, а при больших размерах входных~~ . Если же требуется работать с большими размерами данных ~~это может быть затруднительно~~, ~~поэтому хотелось бы~~то становится не так тривиально модифицировать алгоритм, чтобы он не хранил всё дерево ~~было загружено "частично"~~в ней<ref>[http://arxiv.org/pdf/1012.4074.pdf Woong-Kee Loh, Yang-Sae Moon, Wookey Lee {{---}} A fast divide-and-conquer algorithm for indexing human genome sequences.]</ref>.

== См. также==

Анонимный участник

178.121.131.0

Изменения

Алгоритм Укконена

Навигация

Персональные инструменты

Пространства имён

Варианты

Просмотры

Ещё

Поиск

Навигация

Инструменты