Суффиксный автомат — различия между версиями

Материал из Викиконспекты
Перейти к: навигация, поиск
(Новая страница: «{{Определение |definition = '''Суффиксный автомат''' (англ. ''suffix automaton'', ''directed acyclic word graph'') {{---}} мин...»)
 
Строка 42: Строка 42:
 
Пусть длина самой короткой строки, которая принимается состоянием <tex>q</tex> равно <tex>k</tex>, тогда '''суффиксная ссылка''' <tex>link_q</tex> будет вести из этого состояния в состояние, которое принимает эту же строку без первого символа.
 
Пусть длина самой короткой строки, которая принимается состоянием <tex>q</tex> равно <tex>k</tex>, тогда '''суффиксная ссылка''' <tex>link_q</tex> будет вести из этого состояния в состояние, которое принимает эту же строку без первого символа.
 
}}
 
}}
Будем обозначать длину самой длинной строки, которая принимается состоянием <tex>q</tex> как <tex>len_q</tex>. Длина самой короткой строки из <tex>q</tex> в таком случае будет равна <tex>len_{link_q} + 1</tex>.
+
Будем обозначать длину самой длинной строки, которая принимается состоянием <tex>q</tex> как <tex>len_q</tex>. Длина самой короткой строки из <tex>q</tex> в таком случае будет равна <tex>len(link_q) + 1</tex>.
 +
Суффиксный автомат может быть построен за линейное время online-алгоритмом. Будем добавлять символы строки <tex>s</tex> по одному, перестраивая при этом автомат.
 +
Изначально автомат состоит из одного состояния, для которого <tex>len(0) = 0</tex>, а <tex>link_0 = -1</tex>.
 +
<br>Обозначим состояние <tex>last</tex>, соответствующее текущей строке до добавления символа <tex>c</tex> (изначально <tex>last = 0</tex>). <br>Создадим новое состояние <tex>cur</tex>, <tex>len(cur) = len(last) + 1</tex>. <br>Рассмотрим все переходы из <tex>last</tex> по текущему символу <tex>c</tex>. Если перехода нет, то добавляем переход в <tex>cur</tex>, переходим по суффиксной ссылке и повторяем процедуру снова. Если переход существует, то остановимся и обозначим текущее состояние за <tex>p</tex>. Если перехода не нашлось и по суффиксным ссылкам мы дошли до фиктивного состояния (на которое указывает <tex>link_0</tex>), то <tex>link_{cur} = 0</tex>.<br>
 +
Допустим, что мы остановились в состоянии <tex>p</tex>, из которого существует переход с символом <tex>c</tex>. Обозначим состояние, куда ведёт переход, через <tex>q</tex>. Рассмотрим два случая:<br>
 +
# Если <tex>len(p) + 1 = len(q)</tex>, то <tex>link(q) = cur</tex>.<br>
 +
# В противном случае, создадим новое состояние <tex>new</tex>, скопируем в него <tex>q</tex> вместе с суффиксными ссылками и переходами. <tex>len(new)</tex> присвоим значение <tex>len(p) + 1</tex>. Перенаправим суффиксную ссылку из <tex>q</tex> в <tex>new</tex> и добавим ссылку из <tex>cur</tex> в <tex>new</tex>. Пройдём по всем суффиксным ссылкам из состояния <tex>p</tex> и все переходы в состояние <tex>q</tex> по символу <tex>c</tex> перенаправим в <tex>new</tex>.
 +
Обновим значение <tex>last = cur</tex>.
  
...
+
==Реализация==
 +
* Переходы хранятся в массиве отображений (ключ {{---}} символ, значение {{---}} номер состояния) <tex>edges</tex>,
 +
* Суффиксные ссылки хранятся в массиве <tex>link</tex>,
 +
* Длины строк хранятся в массиве <tex>len</tex>.
 +
 
 +
'''func''' addChar(c)''':'''
 +
    r = newState()                                      <font color="green">// создаём новое состояние и возвращаем его номер</font>
 +
 +
    p = last
 +
    '''while''' p >= 0 '''and''' edges[p].find(c) == edges[p].end()''':'''
 +
        edges[p][c] = r
 +
        p = link[p]
 +
 +
    '''if''' p != -1''':'''
 +
        q = edges[p][c]
 +
        '''if''' length[p] + 1 == length[q]''':'''
 +
            link[r] = q
 +
        '''else:'''
 +
            new = clone(q)                                <font color="green">// скопируем состояние <tex>q</tex></font>
 +
            link[q] = link[r] = new
 +
            '''while''' p >= 0 '''and''' edges[p][c] == q''':'''
 +
                edges[p][c] = new
 +
                p = link[p]
 +
    last = r
  
 
==Источники информации==
 
==Источники информации==

Версия 17:24, 14 марта 2016

Определение:
Суффиксный автомат (англ. suffix automaton, directed acyclic word graph) — минимальный ДКА, который принимает все суффиксы строки и только их.


Описание

Суффиксный автомат [math]A[/math] для строки [math]s[/math] представляет собой ациклический ориентированный граф, с начальной вершиной и множеством терминальных вершин, рёбра которого помечены символами [math]s[/math].

Пример суффиксного автомата для строки [math]abbab[/math].


Определение:
Состояние [math]q[/math] принимает строку [math]s[/math], если существует путь из начального состояния в [math]q[/math], такой, что если последовательно выписать буквы на рёбрах на пути, получим строку [math]s[/math].


Определение:
Автомат принимает строку [math]s[/math], если её принимает хотя бы одно из финальных состояний.


Так как автомат детерминированный, то каждому пути соответствует строка.

Если две строки [math]a[/math] и [math]b[/math] принимаются одним состоянием [math]q[/math] произвольного автомата, то для любой строки [math]x[/math] строки [math]ax[/math] и [math]bx[/math] принимаются или не принимаются автоматом одновременно. Действительно, независимо от того, как мы пришли в состояние [math]q[/math], если мы пройдём из него по пути, соответствующему строке [math]x[/math], мы сможем точно сказать, в какое состояние мы попадём (в частности, будет ли оно финальным). Значит, любому состоянию [math]q[/math] соответствует множество строк [math]X_q[/math], которые переводят его в одно из конечных состояний.

Определение:
Множество [math]X_q[/math] называют правым контекстом состояния.


Правый контекст определен не только для состояния, но и для строк, которые оно принимает — правый контекст строк совпадает с правым контекстом состояния.

Утверждение:
Состояний в автомате не меньше, чем различных правых контекстов у подстрок строки, для которой он построен, причём в минимальном автомате достигается нижняя оценка.
[math]\triangleright[/math]
Допустим, что в автомате есть два состояния [math]q_1[/math] и [math]q_2[/math] такие что [math]X_{q_1} = X_{q_2}[/math]. Мы можем удалить состояние [math]q_2[/math] и перевести переходы, ведущие в него в состояние [math]q_1[/math]. Множество принимаемых строк от этого не изменится, следовательно, мы можем продолжать, пока количество состояний не будет равно числу попарно различных правых контекстов.
[math]\triangleleft[/math]

Таким образом, ДКА является минимальным тогда и только тогда, когда правые контексты всех его состояний попарно различны. В случае суффиксного автомата правый контекст [math]X_a[/math] строки [math]a[/math] взаимнооднозначно соответствует множеству правых позиций вхождений строки [math]a[/math] в строку [math]s[/math]. Таким образом, каждое состояние автомата принимает строки с одинаковым множеством правых позиций их вхождений и обратно, все строки с таким множеством позиций принимается этим состоянием.

Построение

Определение:
Пусть длина самой короткой строки, которая принимается состоянием [math]q[/math] равно [math]k[/math], тогда суффиксная ссылка [math]link_q[/math] будет вести из этого состояния в состояние, которое принимает эту же строку без первого символа.

Будем обозначать длину самой длинной строки, которая принимается состоянием [math]q[/math] как [math]len_q[/math]. Длина самой короткой строки из [math]q[/math] в таком случае будет равна [math]len(link_q) + 1[/math]. Суффиксный автомат может быть построен за линейное время online-алгоритмом. Будем добавлять символы строки [math]s[/math] по одному, перестраивая при этом автомат. Изначально автомат состоит из одного состояния, для которого [math]len(0) = 0[/math], а [math]link_0 = -1[/math].
Обозначим состояние [math]last[/math], соответствующее текущей строке до добавления символа [math]c[/math] (изначально [math]last = 0[/math]).
Создадим новое состояние [math]cur[/math], [math]len(cur) = len(last) + 1[/math].
Рассмотрим все переходы из [math]last[/math] по текущему символу [math]c[/math]. Если перехода нет, то добавляем переход в [math]cur[/math], переходим по суффиксной ссылке и повторяем процедуру снова. Если переход существует, то остановимся и обозначим текущее состояние за [math]p[/math]. Если перехода не нашлось и по суффиксным ссылкам мы дошли до фиктивного состояния (на которое указывает [math]link_0[/math]), то [math]link_{cur} = 0[/math].
Допустим, что мы остановились в состоянии [math]p[/math], из которого существует переход с символом [math]c[/math]. Обозначим состояние, куда ведёт переход, через [math]q[/math]. Рассмотрим два случая:

  1. Если [math]len(p) + 1 = len(q)[/math], то [math]link(q) = cur[/math].
  2. В противном случае, создадим новое состояние [math]new[/math], скопируем в него [math]q[/math] вместе с суффиксными ссылками и переходами. [math]len(new)[/math] присвоим значение [math]len(p) + 1[/math]. Перенаправим суффиксную ссылку из [math]q[/math] в [math]new[/math] и добавим ссылку из [math]cur[/math] в [math]new[/math]. Пройдём по всем суффиксным ссылкам из состояния [math]p[/math] и все переходы в состояние [math]q[/math] по символу [math]c[/math] перенаправим в [math]new[/math].

Обновим значение [math]last = cur[/math].

Реализация

  • Переходы хранятся в массиве отображений (ключ — символ, значение — номер состояния) [math]edges[/math],
  • Суффиксные ссылки хранятся в массиве [math]link[/math],
  • Длины строк хранятся в массиве [math]len[/math].
func addChar(c):
    r = newState()                                       // создаём новое состояние и возвращаем его номер 

    p = last
    while p >= 0 and edges[p].find(c) == edges[p].end():
        edges[p][c] = r
        p = link[p]

    if p != -1:
        q = edges[p][c]
        if length[p] + 1 == length[q]:
            link[r] = q
        else:
            new = clone(q)                                // скопируем состояние [math]q[/math]
            link[q] = link[r] = new
            while p >= 0 and edges[p][c] == q:
                edges[p][c] = new
                p = link[p]
    last = r

Источники информации