Построение суффиксного массива с помощью стандартных методов сортировки
Содержание
Идея построения суффиксного массива
Согласно определению суффиксного массива, для его построения достаточно отсортировать все суффиксы строки. Заменим сортировку суффиксов строки на сортировку циклических сдвигов строки , где символ строго меньше любого символа из . Тогда если в упорядоченных циклических сдвигах отбросить суффикс, начинающийся на , то получим упорядоченные суффиксы исходной строки . В дальнейшем положим (заметим, что все циклические сдвиги также длины ), а также .
Алгоритм за O(N^2 log(N)) (наивно)
Данный алгоритм достаточно тривиален. Отсортируем все циклические сдвиги строки
воспользовавшись любым известным ранее методом логарифмической сортировки (например "сортировка слиянием"). Тогда время на сравнение любых двух циклических сдвигов будет осуществляться за и суммарная сложность алгоритмы составит .Псевдокод
sufsort (suf, compare) compare ( , ) for = 0 to do if (s[( ) mod ] > s[( ) mod ]) ret 1 if (s[( ) mod ] < s[( ) mod ]) ret -1 ret 0
Алгоритм за O(N log^2(N)) (хэши)
Данный алгоритм является некоторым улучшением предыдущего. Основная цель - сократить оценку времени сравнения двух циклических сдвигов до
, тогда мы по аналогии с предыдущим алгоритмом получим оценку . Для этого вычислим хэши всех префиксов строки за . Теперь у нас есть возможность проверять на равенство любые две подстроки (правда с определенной вероятностью мы можем получить неверный ответ на запрос).Далее пусть нам необходимо сравнить два циклических сдвига
и . Найдем сначала их наибольший общий префикс ( ), для этого будем использовать двоичный поиск по длине совпадающего префикса, а проверку осуществлять с помощью посчитанных хэшей префиксов.
Если оказалось, что , то строки равны. Если же , то символы и точно различаются, их сравнение позволяет сделать вывод, какой из циклических сдвигов меньше в лексикографическом порядке. И так двоичный поиск работает за остальные операции требуют константного времени, получаем оценку времени, необходимого на сравнение двух циклических сдвигов .
Алгоритм за O(N log^2(N)) (префиксы циклических сдвигов)
Этот алгоритм сильно отличается от двух предыдущих и от него не сложно перейти к алгоритму за
. И так основная идея: на каждом шаге будем сортировать префиксы циклических сдвигов длины . Еще одно важное дополнение: после каждой фазы, каждому префиксу циклического сдвига будет присваиваться номер класса эквивалентности среди этих префиксов. Причем классы эквивалентности должны быть пронумерованы в лексикографическом порядке соответствующих представителей.В начале легко можно отсортировать за
префиксы длины , т.е. символы. А номера классов поставить в соответствии с порядковым номером символа в алфавите.Рассмотрим теперь переход от префиксов длины
к префиксам длины . Научимся сравнивать два префикса длины за : Пусть даны префиксы , , сравним сначала их левые половинки, использовав значения с предыдущего шага, если , то префиксы соотносятся так как же, как и , если , то переходим к сравнению и . И так отсортировать префиксы длины можно за . Вычислить новые можно легко просто пробежавшись в лексикографическом порядке по префиксам, и увеличивая значение соответствующего класса на если текущий префикс не совпадает с предыдущим (сравнивать с помощью старых ).После шага
. Все циклические сдвиги будут отсортированы. Всего шагов , каждый шаг проводится за , итоговая асимптотика .