Сжатое суффиксное дерево — различия между версиями

Версия 16:13, 1 мая 2014

Суффиксный бор — удобная структура данных для поиска подстроки в строке, но она требует порядка квадрата длины исходной строки памяти. Оптимизацией суффиксного бора, требующей линейное количество памяти, является сжатое суффиксное дерево рассматриваемое далее.

Содержание

1 Определение
2 Количество вершин
3 Занимаемая память
4 Построение суффиксного дерева
- 4.1 Наивный алгоритм
- 4.2 Построение из суффиксного массива
5 Использование сжатого суффиксного дерева
- 5.1 Построение суффиксного массива и массива lcp из суффиксного дерева
6 Источники
7 См. также

Определение

Определение:

Суффиксное дерево (сжатое суффиксное дерево) для строки (где ) — дерево с листьями, обладающее следующими свойствами:

Каждая внутренняя вершина дерева имеет не меньше двух детей;
Каждое ребро помечено непустой подстрокой строки [math]s[/math];
Никаких два ребра, выходящие из одной вершины, не могут иметь пометок, начинающихся с одного и того же символа;
Дерево должно содержать все суффиксы строки [math]s[/math], причем каждый суффикс заканчивается точно в листе и нигде кроме него.

Суффиксное дерево для строки с защитным символом

Данное определение порождает следующую проблему:
Рассмотрим дерево для строки [math]xabxa[/math]: суффикс [math]xa[/math] является префиксом суффикса [math]xabxa[/math], а, значит, этот суффикс не закачивается в листе. Для решения проблемы в конце строки [math]s[/math] добавляют символ, не входящий в исходный алфавит: защитный символ. Обозначим его как [math]\$[/math]. Любой суффикс строки с защитным символом действительно заканчивается в листе и только в листе, т. к. в такой строке не существует двух различных подстрок одинаковой длины, заканчивающихся на [math]\$[/math].

Далее [math]n[/math] — длина строки [math]s[/math] с защитным символом.

Количество вершин

По определению, в суффиксном дереве содержится [math]n[/math] листьев. Оценим количество внутренних вершин такого дерева.

Лемма:

Количество внутренних вершин дерева, каждая из которых имеет не менее двух детей, меньше количества листьев.

Доказательство:

Докажем лемму индукцией по количеству листьев [math]n[/math].

База

При [math]n = 2[/math] в дереве одна внутренняя вершина, следовательно утверждение верно.

Переход [math]n \rightarrow n + 1[/math]

Возьмем вершину в дереве с [math]n + 1[/math] листами, у которой два ребенка — листья. Рассмотрим возможные случаи:

1) У нее более двух детей. Тогда отрежем от нее лист. Получим дерево с [math]n[/math] листьями, причем в нем количество внутренних вершин такое же, как в исходном дереве. Но у полученного дерева по индукционному предположению менее [math]n[/math] внутренних вершин, а, значит, и для исходного дерева лемма верна.

2) У нее ровно два ребенка. Отрежем их, получим дерево с листьями, количество внутренних вершин которого на меньше, чем в исходном дереве. Тогда по индукционному предположению у него менее внутренних вершин, значит, в исходном дереве их меньше .

Занимаемая память

Представим дерево как двумерный массив размера [math]|V| \times |\Sigma|[/math], где [math]|V|[/math] — количество вершин в дереве, [math]|\Sigma|[/math] — мощность алфавита. Для любого суффиксного дерева верна предыдущая лемма (у каждой вершины, по определению, не менее двух детей), значит, [math]|V| = O(2 n)[/math]. Каждая [math][i][j][/math] ячейка содержит информацию о том, в какую вершину ведет ребро из [math]i[/math]-ой вершины по [math]j[/math]-ому символу и индексы [math]l, r[/math] начала и конца подстроки, записанной на данном переходе. Итак, дерево занимает [math]O(n|\Sigma|)[/math] памяти.

Построение суффиксного дерева

Наивный алгоритм

Рассмотрим наивный алгоритм построения суффиксного дерева строки [math]s[/math]:

go[0] = Vertex() // корень
count = 0 // номер последней вершины, созданной в дереве (глобальная переменная)
for i = 0 to n: // для каждого символа строки
    insert(i, n) // добавляем суффикс, начинающийся с него

insert(l, r):
    cur = 0 
    while l < r:
        if go[cur][s[l]].v == -1:       // если мы не можем пойти из вершины по символу [math] l [/math]
            createVertex(cur, l, r)     // создаем новую вершину 
        else:
            start = go[cur][s[l]].l
            finish = go[cur][s[l]].r
            hasCut = false
            for j = start to finish: // для каждого символа на ребре из текущей вершины
                if s[l+j-start] [math] \neq [/math] s[j]: // если нашли не совпадающий символ
                    // создаем вершину на ребре
                    old = go[cur][s[l]]
                    createVertex(cur, l, j - 1)
                    go[count][s[j]].v = old
                    go[count][s[j]].r = j
                    go[count][s[j]].l = finish
                    createVertex(count, l + j - start, r)
                    hasCut = true
                    break
            if !hasCut:
                cur = go[cur][s[l]].v  // переходим по ребру
                l = l + finish - start // двигаемся по суффиксу на длину подстроки, записанной на ребре
            else:
                break

createVertex(cur, l, r)
    go[++count] = Vertex()
    go[cur][s[l]].v = count
    go[cur][s[l]].l = l
    go[cur][s[l]].r = r

Этот алгоритм работает за время [math]O(n^2)[/math], однако алгоритм Укконена позволяет построить сжатое суффиксное дерево за [math]O(n)[/math].

Построение из суффиксного массива

Пусть нам известен суффиксный массив [math]suf[/math] строки [math]s[/math], его можно получить алгоритмом Карккайнена-Сандерса за линейное время. Для преобразования нам также понадобится массив [math]lcp[/math] (longest common prefix), который можно получить алгоритмом Касаи.

В этом преобразовании используется тот же инвариант, что и в других суффиксных структурах:

Строка [math]s[/math] заканчивается специальным символом, который больше не встречается в строке.
(Следствие) [math]lcp[i] \lt len[i - 1][/math], где [math]len[i - 1][/math] — длина суффикса, соответствующего [math]suf[i - 1][/math].

В вершинах дерева [math]Node[/math] мы будем хранить предка [math]parent[/math], стек детей в лексикографическом порядке ребер [math]children[/math], глубину вершины в символах от корня [math]depth[/math]. Соответственно, конструктор вершины имеет вид Node(Node parent, int depth).

Будем добавлять суффиксы в лексикографическом порядке и запоминать последнюю добавленную вершину [math]previous[/math]. Тогда [math]i[/math]-ый добавленный суффикс будет иметь с предыдущим [math]lcp[i][/math] общих символов, что позволит ускорить добавление.

Алгоритм добавления суффикса:

Если мы находимся в корне, либо [math]depth = lcp[/math], новый суффикс нужно добавить к детям.
Если [math]parent.depth \lt lcp[/math], новый суффикс будет идти из середины ребра к предку. Вставим между нами и предком вершину с глубиной [math]lcp[/math].
Вызовем добавление суффикса у нашего предка.


Node addNextSuffix(Node previous, int length, int lcp):
   if previous.depth == 0 or previous.depth == lcp:            // Добавляем к сыновьям текущей вершины 
      added = Node(previous, length)
      previous.children.push(added)
      return added
   else:
      if previous.parent.depth < lcp:                          // Нужно разрезать ребро 
         inserted = Node(prevous.parent, lcp)
         previous.parent.children.pop()
         previous.parent.children.push(inserted)
         inserted.children.push(previous)
         previous.parent = inserted
      return addNextSuffix(previous.parent, length, lcp)      
      
Node buildSuffixTree(int[] suf, int[] lcp, int length):
   root = Node(null, 0)
   previous = root
   for i = 1 to length:
      previous = addNextSuffix(previous, length - suf[i], lcp[i])
   return root

В процессе построения мы нигде не запоминали сами позиции строки, соответствующие ребрам. Чтобы их восстановить, достаточно определить максимальный суффикс, который проходит по этому ребру. Для этого с помощью обхода в глубину посчитаем для каждой вершину дерева максимальную глубину ее листа [math]maxDepth[/math].

Тогда ребро [math]s[start, end][/math] определяется так:


function calculatePositions(Node parent, Node child, int stringLength):
   start = stringLength - child.maxDepth + parent.depth
   end = start + child.depth - parent.depth - 1

Для асимптотического анализа будем использовать в качестве потенциала глубину в вершинах. При добавлении суффикса мы спускаемся один раз, подняться выше корня мы не можем, значит и подниматься мы будем суммарно [math]O(n)[/math] раз. Обход в глубину также выполняется за [math]O(n)[/math], итоговая асимптотика [math]O(n)[/math].

Использование сжатого суффиксного дерева

Суффиксное дерево позволяет за линейное время найти:

Количество различных подстрок данной строки
Наибольшую общую подстроку двух строк
Суффиксный массив и массив [math]lcp[/math] (longest common prefix) исходной строки

Построение суффиксного массива и массива lcp из суффиксного дерева

Пусть к строке дописан специальный символ для сохранения инварианта. Рассмотрим лексикографический по ребрам порядок обхода сжатого суффиксного дерева. Пусть два суффикса имеют общее начало, но различаются в [math]i[/math]-ом символе. Первым будет рассмотрено поддерево по ребру с меньшим символом, значит и лист, соответствующий этому суффиксу, будет посещен первым.

Тогда суффиксный массив строится из суффиксного дерева обходом в глубину в указанном порядке. Пусть длина строки [math]length[/math], глубина листа в символах [math]depth[/math], тогда номер суффикса [math]i = length - depth[/math].

Для заполнения массива [math]lcp[/math] нам понадобится вершина [math]minNode[/math], которая будет означать вершину с минимальной глубиной, в которую мы поднимались при переходе между суффиксами. Поскольку мы точно поднимались туда, но не поднимались выше, это будет наименьший общий предок этих узлов. Из этого следует, что у рассматриваемых суффиксов совпадает ровно [math]lcp = minNode.depth[/math] символов.


int curPos = 0
Node minNode = root
// Для заполнения нужно вызвать dfs(root) 
function dfs(Node n):
   if children.size == 0:
      suf[curPos] = length - n.depth
      lcp[curPos] = minNode.depth
      curPos++
      minNode = n
   else:
      foreach child in n.children:
         if n.depth < minNode.depth:
            minNode = n
         dfs(child)

Асимптотика алгоритма совпадает с асимптотикой обхода в глубину и составляет [math]O(n)[/math].

Таким образом, мы умеем за [math]O(n)[/math] строить суффиксное дерево, суффиксный массив и преобразовывать одно в другое.

Источники

Дэн Гасфилд — Строки, деревья и последовательности в алгоритмах: Информатика и вычислительная биология — СПб.: Невский Диалект; БХВ-Петербург, 2003. — 654 с: ил.

См. также

@@ Строка 46: / Строка 46: @@
 ===Наивный алгоритм===
 Рассмотрим наивный алгоритм построения суффиксного дерева строки <tex>s</tex>:
-  go[0] = new Vertex() //корень
+  go[0] = Vertex() // корень
-  count = 0 //номер последней вершины, созданной в дереве (глобальная переменная)
+  count = 0 // номер последней вершины, созданной в дереве (глобальная переменная)
-  '''for''' i = 0 '''to''' n //для каждого символа строки
+  '''for''' i = 0 '''to''' n: // для каждого символа строки
-      insert(i, n) //добавляем суффикс, начинающийся с него
+      insert(i, n) // добавляем суффикс, начинающийся с него
-  insert(l, r)
+  insert(l, r):
       cur = 0
-      '''while''' (l < r)
+      '''while''' l < r:
-          '''if''' go[cur][s[l]].v == -1  '''then''' //если мы не можем пойти из вершины по символу <tex> l </tex>
+          '''if''' go[cur][s[l]].v == -1:       // если мы не можем пойти из вершины по символу <tex> l </tex>
-              createVertex(cur, l, r) //создаем новую вершину
+              createVertex(cur, l, r)     // создаем новую вершину
-          '''else'''
+          '''else:'''
               start = go[cur][s[l]].l
               finish = go[cur][s[l]].r
               hasCut = false
-              '''for''' j = start '''to''' finish //для каждого символа на ребре из текущей вершины
+              '''for''' j = start '''to''' finish: // для каждого символа на ребре из текущей вершины
-                  '''if''' s[l+j-start] <> s[j] '''then''' //если нашли не совпадающий символ
+                  '''if''' s[l+j-start] <tex> \neq </tex> s[j]: // если нашли не совпадающий символ
-                      //создаем вершину на ребре
+                      // создаем вершину на ребре
                       old = go[cur][s[l]]
                       createVertex(cur, l, j - 1)
@@ Строка 71: / Строка 71: @@
                       hasCut = true
                       '''break'''
-              '''if''' !hasCut '''then'''
+              '''if''' !hasCut:
-                  cur = go[cur][s[l]].v //переходим по ребру
+                  cur = go[cur][s[l]].v  // переходим по ребру
-                  l = l + finish - start //двигаемся по суффиксу на длину подстроки, записанной на ребре
+                  l = l + finish - start // двигаемся по суффиксу на длину подстроки, записанной на ребре
-              '''else'''
+              '''else:'''
                   '''break'''
   createVertex(cur, l, r)
-      go[++count] = new Vertex()
+      go[++count] = Vertex()
       go[cur][s[l]].v = count
       go[cur][s[l]].l = l
@@ Строка 105: / Строка 105: @@
 <code>
-  Node addNextSuffix(Node previous, '''int''' length, '''int''' lcp)
+  Node addNextSuffix(Node previous, '''int''' length, '''int''' lcp):
-     '''if''' previous.depth == 0 '''or''' previous.depth == lcp           <font color=green> // Добавляем к сыновьям текущей вершины </font>
+     '''if''' previous.depth == 0 '''or''' previous.depth == lcp:           <font color=green> // Добавляем к сыновьям текущей вершины </font>
         added = Node(previous, length)
         previous.children.'''push'''(added)
         '''return''' added
-     '''else'''
+     '''else:'''
-        '''if''' previous.parent.depth < lcp                         <font color=green> // Нужно разрезать ребро </font>
+        '''if''' previous.parent.depth < lcp:                         <font color=green> // Нужно разрезать ребро </font>
            inserted = Node(prevous.parent, lcp)
            previous.parent.children.'''pop'''()
@@ Строка 119: / Строка 119: @@
         '''return''' addNextSuffix(previous.parent, length, lcp)
-  Node buildSuffixTree('''int[]''' suf, '''int[]''' lcp, '''int''' length)
+  Node buildSuffixTree('''int[]''' suf, '''int[]''' lcp, '''int''' length):
      root = Node('''null''', 0)
      previous = root
-     '''for''' i = 1 '''to''' length
+     '''for''' i = 1 '''to''' length:
         previous = addNextSuffix(previous, length - suf[i], lcp[i])
      '''return''' root
@@ Строка 132: / Строка 132: @@
 <code>
-  calculatePositions(Node parent, Node child, '''int''' stringLength)
+  '''function''' calculatePositions(Node parent, Node child, '''int''' stringLength):
      start = stringLength - child.maxDepth + parent.depth
      end = start + child.depth - parent.depth - 1
@@ Строка 157: / Строка 157: @@
 <code>
- '''int''' length
- '''int[]''' suf
- '''int[]''' lcp
   '''int''' curPos = 0
   Node minNode = root
-  <font color=green>//Для заполнения нужно вызвать dfs(root) </font>
+  <font color=green>// Для заполнения нужно вызвать dfs(root) </font>
-  dfs(Node n)
+  '''function''' dfs(Node n):
-     '''if''' children.size == 0
+     '''if''' children.size == 0:
         suf[curPos] = length - n.depth
         lcp[curPos] = minNode.depth
         curPos++
         minNode = n
-     '''else'''
+     '''else:'''
-        '''foreach''' Node c '''from''' n.children
+        '''foreach''' child '''in''' n.children:
-           '''if''' n.depth < minNode.depth
+           '''if''' n.depth < minNode.depth:
               minNode = n
-           dfs(c)
+           dfs(child)
 </code>

Сжатое суффиксное дерево — различия между версиями

Версия 16:13, 1 мая 2014

Содержание

Определение

Количество вершин

Занимаемая память

Построение суффиксного дерева

Наивный алгоритм

Построение из суффиксного массива

Использование сжатого суффиксного дерева

Построение суффиксного массива и массива lcp из суффиксного дерева

Источники

См. также

Навигация

Персональные инструменты

Пространства имён

Варианты

Просмотры

Ещё

Поиск

Навигация

Инструменты