Суффиксный автомат — различия между версиями
|  (→См. также) | |||
| Строка 182: | Строка 182: | ||
| * [[Автомат для поиска образца в тексте]] | * [[Автомат для поиска образца в тексте]] | ||
| * [[Алгоритм Ахо-Корасик]] | * [[Алгоритм Ахо-Корасик]] | ||
| + | * [[Поиск наибольшей общей подстроки двух строк с использованием хеширования]] | ||
| ==Источники информации== | ==Источники информации== | ||
Версия 20:48, 26 марта 2016
| Определение: | 
| Суффиксный автомат (англ. suffix automaton, directed acyclic word graph) — минимальный ДКА, который принимает все суффиксы строки и только их. | 
Содержание
Описание
Детерминированным конечным автоматом называется пятёрка (), где
- — множество состояний,
- — начальное состояние,
- — конечный алфавит,
- — функция переходов,
- — множество терминальных состояний.
Суффиксный автомат для строки представляет собой ациклический ориентированный граф, с начальной вершиной и множеством терминальных вершин, рёбра которого помечены символами .
| Определение: | 
| Состояние принимает строку , если существует путь из начального состояния в , такой, что если последовательно выписать буквы на рёбрах на пути, получим строку . | 
| Определение: | 
| Автомат принимает строку , если её принимает хотя бы одно из финальных состояний. | 
Так как автомат детерминированный, то каждому пути соответствует строка. 
Если две строки и принимаются одним состоянием произвольного автомата, то для любой строки строки и принимаются или не принимаются автоматом одновременно. Действительно, независимо от того, как мы пришли в состояние , если мы пройдём из него по пути, соответствующему строке , мы сможем точно сказать, в какое состояние мы попадём (в частности, будет ли оно финальным). Значит, любому состоянию соответствует множество строк , которые переводят его в одно из конечных состояний.
| Определение: | 
| Множество называют правым контекстом состояния. | 
Правый контекст определен не только для состояния, но и для строк, которые оно принимает — правый контекст строк совпадает с правым контекстом состояния.
| Утверждение: | 
| Состояний в автомате не меньше, чем различных правых контекстов у подстрок строки, для которой он построен, причём в минимальном автомате достигается нижняя оценка. | 
| Допустим, что в автомате есть два состояния и такие что . Мы можем удалить состояние и перевести переходы, ведущие в него в состояние . Множество принимаемых строк от этого не изменится, следовательно, мы можем продолжать, пока количество состояний не будет равно числу попарно различных правых контекстов. | 
Таким образом, ДКА является минимальным тогда и только тогда, когда правые контексты всех его состояний попарно различны. В случае суффиксного автомата правый контекст строки взаимнооднозначно соответствует множеству правых позиций вхождений строки в строку . Таким образом, каждое состояние автомата принимает строки с одинаковым множеством правых позиций их вхождений и обратно, все строки с таким множеством позиций принимается этим состоянием.
Построение
Алгоритм
| Определение: | 
| Пусть длина самой короткой строки, которая принимается состоянием равно , тогда суффиксная ссылка будет вести из этого состояния в состояние, которое принимает эту же строку без первого символа. | 
Будем обозначать длину самой длинной строки, которая принимается состоянием  как . Длина самой короткой строки из  в таком случае будет равна . 
Суффиксный автомат может быть построен за линейное время (при константном размере алфавита) online-алгоритмом. Будем добавлять символы строки  по одному, перестраивая при этом автомат. 
Изначально автомат состоит из одного состояния, для которого , а .
Обозначим состояние , соответствующее текущей строке до добавления символа  (изначально ). 
Создадим новое состояние , . 
Рассмотрим все переходы из  по текущему символу . Если перехода нет, то добавляем переход в , переходим по суффиксной ссылке и повторяем процедуру снова. Если переход существует, то остановимся и обозначим текущее состояние за . Если перехода не нашлось и по суффиксным ссылкам мы дошли до фиктивного состояния (на которое указывает ), то .
Допустим, что мы остановились в состоянии , из которого существует переход с символом . Обозначим состояние, куда ведёт переход, через . Рассмотрим два случая:
-  Если , то .
- В противном случае, создадим новое состояние , скопируем в него вместе с суффиксными ссылками и переходами. присвоим значение . Перенаправим суффиксную ссылку из в и добавим ссылку из в . Пройдём по всем суффиксным ссылкам из состояния и все переходы в состояние по символу перенаправим в .
Обновим значение .
Пример построения
| Изображение | Описание | 
|---|---|
| Изначально автомат состоит из одного начального состояния. | |
| Добавляем символ . Создаем состояние . Переходов из начального состояния по символу нет, перейти по суффиксным ссылкам некуда, значит добавим суффиксную ссылку . | |
| Добавляем символ . Создаем состояние . Добавим переход из , откатимся по суффиксной ссылке и добавим переход из . Добавим суффиксную ссылку . | |
| Аналогично добавим символ и обновим автомат. | |
| Добавляем символ . Добавим переход из и перейдем по суффиксной ссылке в начальное состояние. Из состояния существует переход по символу | |
| Рассмотрим состояние , куда существует переход. Имеем . 
 | |
| Построение автомата завершено. Чтобы пометить терминальные вершины, найдём состояние, которое принимает строку и пройдём по суффиксным ссылкам, помечая все посещенные состояния терминальными. | 
Реализация
- Переходы хранятся в массиве отображений (ключ — символ, значение — номер состояния) ,
- Суффиксные ссылки хранятся в массиве ,
- Длины строк хранятся в массиве ,
- Функция создаёт новое состояние и возвращает его номер,
- Функция копирует состояние и возвращает номер нового состояния.
func addChar(c):
    cur = newState()                                       // создаём новое состояние и возвращаем его номер 
    p = last
    while p >= 0 and edges[p].find(c) == null
        edges[p][c] = cur
        p = link[p]
    if p != -1
        q = edges[p][c]
        if len[p] + 1 == len[q]
            link[cur] = q
        else
            new = clone(q)                                // скопируем состояние 
            len[new] = len[p] + 1
            link[q] = link[cur] = new
            while p >= 0 and edges[p][c] == q
                edges[p][c] = new
                p = link[p]
    last = cur
Применение
Проверка вхождения строки
| Задача: | 
| Даны строки и . Требуется проверить, является ли строка подстрокой . | 
Построим суффиксный автомат для строки .
Пусть текущее состояние — , изначально равно  (начальному состоянию).
Будем по очереди обрабатывать символы строки . Если из состояния  есть переход в по текущему символу, но перейдем в новое состояние и повторим процедуру. Если перехода не существует, то  не является подстрокой . Если успешно обработали все символы , то она является подстрокой .
Асимптотика — построение суфавтомата за , проверка за .
Позиция первого вхождения строки
| Задача: | 
| Даны строки и . Требуется найти позицию первого вхождения строки в . | 
Построим суффиксный автомат для строки .
В процессе построения для каждого состояния  будем хранить значение  — позицию окончания первого вхождения строки.
Поддерживать позицию  можно следующим образом: при добавлении нового состояния , а при клонировании вершины .
Для поиска вхождения обойдём автомат, как в предыдущей задаче. Пусть состояние  в автомате соответствует строке . Тогда ответ на задачу .
Асимптотика — построение суфавтомата за , проверка за .
Количество различных подстрок
| Задача: | 
| Дана строка . Найти количество различных подстрок строки . | 
Построим суффиксный автомат для строки .
Каждой подстроке в суффиксном автомате соответствует путь, тогда ответ на задачу — количество различных путей из начальной вершины. Так как суфавтомат представляет собой ациклический граф, мы можем найти количество путей в графе методом динамического программирования.
Наибольшая общая подстрока двух строк
| Задача: | 
| Даны строки и . Требуется найти наибольшую общую подстроку двух строк. | 
Построим суффиксный автомат для строки .
Пройдем по строке  и для текущего символа будем искать длину наибольшей общей подстроки, которая заканчивается в текущей позиции. Для этого будем поддерживать  — текущее состояние и  — текущую длину совпадающей части.
Изначально ,  — совпадение пустое. Рассматриваем текущий символ . Если в автомате существует переход из текущего состояния по данному символу, то перейдем в новое состояние и увеличим длину  на .
Если перехода не существует, то попробуем минимально уменьшить длину совпадающей подстроки: перейдем по суффиксной ссылке из  в новое состояние и примем . Повторим операцию до тех пор, пока не найдем переход. Если по суффиксным ссылкам мы дошли до состояния, в которое ведет суффиксная ссылка начальной вершины, то это значит, что символа  нет в строке . В таком случае примем , после чего перейдем к следующему символу строки .
Длиной наибольшей общей подстроки будет  — максимум из всех значений , полученных в ходе работы алгоритма. Тогда ответом на задачу будет являться подстрока , где  — позиция, в которой достигнут максимум.
Сравнение с другими суффиксными структурами
Пусть — строка, для которой строим соответствующую структуру, , — алфавит.
| Время работы | Память | |
| Суффиксный бор | ||
| Сжатое суффиксное дерево | ||
| Суффиксный массив | ||
| Суффиксный автомат | 
См. также
- Автомат для поиска образца в тексте
- Алгоритм Ахо-Корасик
- Поиск наибольшей общей подстроки двух строк с использованием хеширования
Источники информации
- Maxime Crochemore, Christophe Hancart, Thierry Lecroq — Algorithms on Strings
- А. Кульков — Лекция по суффиксным структурам
- MAXimal :: algo :: Суффиксный автомат








