Изменения

← Предыдущая правка

Сжатое суффиксное дерево

658 байт добавлено, 19:41, 4 сентября 2022

м

rollbackEdits.php mass rollback

Число внутренних вершин дерева, каждая из которых имеет не менее двух детей, меньше числа листьев.

|proof=

~~Докажем лемму индукцией по числу листьев <tex>n</tex>.~~

~~'''База'''~~: Докажем лемму индукцией по числу листьев <tex>n</tex>.

~~При <tex>n = 2</tex> в дереве одна внутренняя вершина, следовательно утверждение верно.~~: '''База'''

~~'''Переход'''~~ : При <tex>n ~~\rightarrow n + 1~~= 2</tex>в дереве одна внутренняя вершина, следовательно утверждение верно.

: '''Переход''' <tex>n \rightarrow n + 1</tex> : Возьмем вершину в дереве с <tex>n + 1</tex> листами, у которой два ребенка {{---}} листья. Рассмотрим возможные случаи:

# У нее более двух детей. Тогда отрежем от нее лист. Получим дерево с <tex>n</tex> листьями, причем в нем число внутренних вершин такое же, как в исходном дереве. Но у полученного дерева по индукционному предположению менее <tex>n</tex> внутренних вершин, а, значит, и для исходного дерева лемма верна.

# У нее ровно два ребенка. Отрежем их, получим дерево с <tex>n ~~- 1~~</tex> листьями, число внутренних вершин которого на <tex>1</tex> меньше, чем в исходном дереве. Тогда по индукционному предположению у него менее <tex>n ~~- 1~~</tex> внутренних вершин, значит, в исходном дереве их меньше <tex>n+ 1</tex>.

}}

===Наивный алгоритм===

Рассмотрим наивный алгоритм построения суффиксного дерева строки <tex>s</tex>:

'''struct''' Vertex: // Структура, содержащая информацию о вершине '''int''' l // индекс начала подстроки '''int''' r // индекс конца подстроки '''int''' v // индекс текущей позиции go[0] = '''new''' Vertex() // массив из пустых Vertex (можно все поля положить - ~~функция~~1), ~~возвращающая корень дерева~~размер массива -- количество символов в алфавите

count = 0 // номер последней вершины, созданной в дереве (глобальная переменная)

'''for''' i = 0 '''to''' n // для каждого символа строки

cur = 0

'''while''' (l < r)

'''if''' (go[cur][s[l]].v == -1) // если мы не можем пойти из вершины по символу <tex> l </tex>

createVertex(cur, l, r) // создаем новую вершину

'''else'''

finish = go[cur][s[l]].r

hasCut = ''false''

'''for''' j = start '''to''' finish and l + j - start < n // для каждого символа на ребре из текущей вершины

'''if''' (s[l + j - start] != s[j]) // если нашли не совпадающий символ

// создаем вершину на ребре

old = go[cur][s[l]]

createVertex(cur, l, j ~~- 1~~)

go[count][s[j]].v = old

go[count][s[j]].r l = j go[count][s[j]].l r = finish

createVertex(count, l + j - start, r)

hasCut = ''true''

'''void''' createVertex('''int''' cur, '''int''' l, '''int''' r):

go[++count] = '''new''' Vertex()

go[cur][s[l]].v = count

go[cur][s[l]].l = l

go[cur][s[l]].r = r

~~Node Vertex():~~

~~top = new Node~~

~~'''return''' top~~

Этот алгоритм работает за время <tex>O(n^2)</tex>, однако [[Алгоритм Укконена| алгоритм Укконена]] позволяет построить сжатое суффиксное дерево за <tex>O(n)</tex>.

# Вставить новую вершину как сына вершины с глубиной <tex>lcp</tex>.

В вершинах дерева <tex>Node</tex> мы будем хранить предка <tex>\mathtt {parent}</tex>, [[Стек| стек]] детей в лексикографическом порядке ребер <tex>\mathtt{children}</tex>, глубину вершины в символах от корня <tex>\mathtt{depth}</tex>.

Соответственно, конструктор вершины имеет вид <code>Node(Node parent, '''int''' depth)</code>.

<code>

'''Node ''' addNextSuffix('''Node ''' previous, '''int''' length, '''int''' lcp):

'''if''' (previous.depth == 0 '''or''' previous.depth == lcp) // Добавляем к сыновьям текущей вершины

added = '''Node'''(previous, length)

previous.children.push(added)

'''return''' added

'''else'''

'''if''' previous.parent.depth < lcp: // Нужно разрезать ребро inserted = '''Node'''(prevous.parent, lcp)

previous.parent.children.pop()

previous.parent.children.push(inserted)

'''return''' addNextSuffix(previous.parent, length, lcp)

'''Node ''' buildSuffixTree('''int[]''' suf, '''int[]''' lcp, '''int''' length): root = '''Node'''('''null''', 0)

previous = root

'''for''' i = 1 '''to''' length

</code>

В процессе построения мы нигде не запоминали сами позиции строки, соответствующие ребрам. Чтобы их восстановить, достаточно определить максимальный суффикс, который проходит по этому ребру. Для этого с помощью [[Обход в глубину, цвета вершин| обхода в глубину]] посчитаем для каждой вершину дерева максимальную глубину ее листа <tex>\mathtt{maxDepth}</tex>.

Тогда ребро <tex>s[start, end]</tex> определяется так:

<code>

'''~~function~~void''' calculatePositions('''Node ''' parent, '''Node ''' child, '''int''' stringLength):

start = stringLength - child.maxDepth + parent.depth

end = start + child.depth - parent.depth - 1

Тогда суффиксный массив строится из суффиксного дерева [[Обход в глубину, цвета вершин| обходом в глубину]] в указанном порядке.

Пусть длина строки <tex>\mathtt{length}</tex>, глубина листа в символах <tex>\mathtt{depth}</tex>, тогда номер суффикса <tex>\mathtt{i = length - depth}</tex>.

Для заполнения массива <tex>lcp</tex> нам понадобится вершина <tex>\mathtt{minNode}</tex>, которая будет означать вершину с минимальной глубиной, в которую мы поднимались при переходе между суффиксами. Поскольку мы точно поднимались туда, но не поднимались выше, это будет [[Сведение задачи LCA к задаче RMQ| наименьший общий предок]] этих узлов. Из этого следует, что у рассматриваемых суффиксов совпадает ровно <tex>\mathtt{lcp = minNode.depth}</tex> символов.

<code>

'''int''' curPos = 0

'''Node ''' minNode = root

// Для заполнения нужно вызвать dfs(root)

'''~~function~~void''' dfs('''Node ''' n):

'''if''' n.children.size == 0

suf[curPos] = length - n.depth

Maintenance script

1632

правки

Изменения

Сжатое суффиксное дерево

Навигация

Персональные инструменты

Пространства имён

Варианты

Просмотры

Ещё

Поиск

Навигация

Инструменты