Алгоритм МакКрейта — различия между версиями
Genyaz (обсуждение | вклад) (Новая страница: «{{В разработке}} '''Алгоритм МакКрейта''' — алгоритм построения [[Сжатое суффиксное дерево|...») |
(нет различий)
|
Версия 20:59, 2 мая 2014
Алгоритм МакКрейта — алгоритм построения суффиксного дерева для заданной строки за линейное время. Отличается от алгоритма Укконена тем, что добавляет суффиксы в порядке убывания длины.
Содержание
Теоретическое обоснование
Заметим, что если два суффикса имеют наименьшего общего предка на этой глубине. Будем рассматривать суффиксы в порядке убывания длины, тогда имеет смысл узнавать наибольшее с новым суффиксом среди всех суффиксов, добавленных раньше.
(largest common prefix) общих символов, то в построенном суффиксном дереве они будут иметь
Определение: |
— максимальный префикс и среди всех . |
Пусть мы знаем и место в дереве, которое ему соответствует. Если позиция находится на ребре, разрежем его, а потом добавим новую вершину.
Считать
по определению было бы очень затруднительно, но существует способ значительно сократить вычисления.Лемма: |
Пусть , тогда — префикс . |
Доказательство: |
|
Если нам известны суффиксные ссылки
для каждой вершины , мы можем быстро перейти от позиции к ее суффиксу и продолжить сравнение символов оттуда. Если бы новая позиция всегда оказывалась существующей вершиной построенного дерева, этот алгоритм бы уже работал, но в реальности можно оказаться на середине ребра, для которой суффиксная ссылка неизвестна. Для нахождения ее суффиксной ссылки на следующей итерации мы сначала перейдем к предку, пройдем по суффиксной ссылке, а уже затем будем продолжать сравнение.Алгоритм
Для удобства реализации вместе с корнем
создадим вспомогательную вершину , обладающую свойствами:- Для любого символа из вершины есть ребро в корень.
Будем поддерживать инвариант:
- Для всех вершин, кроме, возможно, последней добавленной , известны суффиксные ссылки.
- Суффиксная ссылка всегда ведет в вершину, а не в середину ребра.
При добавлении каждого следующего суффикса будем выполнять следующие шаги:
- Если суффиксная ссылка
- Поднимемся вверх к ее предку;
- Пройдем по суффиксной ссылке;
- Спустимся вниз на столько символов, сколько мы прошли вверх к предку (fast scanning).
- Если мы оказались посередине ребра, разрежем его и добавим вершину.
- Установим суффиксную ссылку для
не определена:
- Иначе просто пройдем по суффиксной ссылке.
- Будем идти по дереву вниз, пока либо не будет перехода по символу, либо очередной символ на ребре не совпадет с символом нового суффикса (slow scanning)
- Добавим ребро/разрежем существующее, запомним новую позицию и добавим оставшуюся часть суффикса в качестве листа.
Утверждение: |
Инвариант алгоритма сохраняется |
Инвариант мог бы нарушиться только в случае, если бы не существовало вершины в суффиксной ссылке для Покажем, что это невозможно. Рассмотрим, что значит, что , но мы продолжили бы сканирование по ребру дальше и получили две вершины с неопределенными суффиксными ссылками. остановилась посередине ребра. Это означает, что все суффиксы , которые дошли до этого места, имеют совпадающие символы, по определению отличающиеся от символа суффикса . Тогда и должен отличаться в этом символе, значит . |
Асимптотическая оценка
В приведенном алгоритме используется константное число операций на добавление одного суффикса, не считая slow scanning и fast scanning.
Slow scanning делает
операций, что суммарно дает операций.Fast scanning работает с целыми ребрами, поэтому будем использовать в качестве потенциала глубину в вершинах. Из структуры суффиксного дерева мы знаем, что суффиксная ссылка может уменьшить глубину вершины не более, чем на , так что мы на каждой итерации поднимаемся не более, чем на — один раз к предку, а потом по суффиксной ссылке, что составляет за весь алгоритм. Соответственно, спустимся мы тоже суммарно раз, так как и максимальная глубина составляет .
Итоговая асимптотика алгоритма —
.Сравнение с другими алгоритмами
Является первым асимптотически оптимальным алгоритмом. В сравнении с алгоритмом Укконена:
- Преимущества: мы строим суффиксное дерево в явной форме, что может облегчить понимание алгоритма.
- Недостатки: является offline алгоритмом, то есть требует для начала работы всю строку целиком.