Суффиксный массив

Определение:

Cуффиксным массивом (англ. suffix array) строки называется массив целых чисел от до , такой, что суффикс — -й в лексикографическом порядке среди всех непустых суффиксов строки .

Содержание

1 Пример
2 Восстановление строки по суффиксному массиву
- 2.1 Вариант для бесконечного алфавита
  - 2.1.1 Доказательство корректности
  - 2.1.2 Псевдокод
- 2.2 Вариант для минимально возможного
3 Применения
4 См. также
5 Источники

Пример

[math]s = abacaba[/math]

Значит, суффиксный массив для строки [math]s[/math] равен [math][7, 5, 1, 3, 6, 2, 4][/math].

Восстановление строки по суффиксному массиву

Задача:

Дан суффиксный массив некоторой строки , необходимо восстановить строку за время .

Вариант для бесконечного алфавита

Так как наш алфавит не ограничен, можно [math]i[/math]-й в лексикографическом порядке суффикс сопоставить с [math]i[/math]-й буквой в алфавите.

Доказательство корректности

Если отсортировать суффиксы, то первые буквы будут расположены в том же порядке, как и в алфавите.

Псевдокод

string fromSuffixArrayToString(int[] sa):
  for i = 1 to n
       s[sa[i]] = alphabet[i] 
  return s

Вариант для минимально возможного

Для начала вместо каждого символа строки поставим символ из бесконечного алфавита в промежуточную строку [math]tmp[/math], как в решении выше. Пусть, мы рассматриваем [math]i[/math]-й в лексикографическом порядке суффикс (т.е. и [math]i[/math]-й символ строки). Его первый символ будет равен первому символу предущего в лексикографическом порядке суффикса, если , т.е. и их строки без первого символа так же в лексикографическом порядке. Иначе он должен быть больше, т.к. рассматриваемый суффикс следующий в лексикографическом порядке.

Пример

Дан суффиксный массив [math][7, 5, 1, 3, 6, 2, 4][/math]. Цветами показаны места, после которых добавляются новые символы.

Псевдокод

string fromSuffixArrayToString(int[] sa):
  for i = 1 to n
       tmp[sa[i]] = alphabet[i]
  cur = 1
  s[1] = alphabet[1]
  for i = 2 to n
       j = sa[i - 1]
       k = sa[i]
       if tmp[j + 1] > tmp[k + 1] 
           cur++
       s[i] = alphabet[cur]       
  return s

Доказательство минимальности

Докажем от противного. Пусть, есть решение в котором использовано меньше букв. Тогда найдется позиция в которой, наше решение отличается от минимального, причем в минимальном остается та же буква, как в предыдущем суффиксе, а в нашем появляется новая. Рассмотрим эти два подряд идущих суффикса. В решении выше добавится новая буква, только если продолжение первого суффикса лексикографически больше, чем продолжение второго. Получается, что в минимальном решении первый суффикс лексикографически больше, чем второй, что неверно. Пришли к противоречию.

Применения

Здесь и далее [math]SA[/math] — время построения суффиксного массива.

Поиск подстроки в строке

Поиск всех вхождений образца [math]p[/math] в строку [math]s[/math] за время [math]O(|p| + \log(|s|))[/math]. Основная статья

Подсчет LCP соседних лексикографически суффиксов

Подсчет LCP для всех соседних в лексикографическом порядке суффиксов строки [math]s[/math] за [math]O(|s|)[/math], то есть построение массива [math]LCP[1 .. |s| - 1][/math], где [math]LCP[i][/math] — длина наибольшего общего префикса суффиксов [math]s[suf[i] .. |s|][/math] и [math]s[suf[i + 1] .. |s|][/math].

Количество различных подстрок в строке

Вычисление количества различных подстрок в строке за время [math]O(|s| \log(|s|))[/math] и [math]O(|s|)[/math] дополнительной памяти.

Наименьший циклический сдвиг строки

Поиск наименьшего циклического сдвига строки за время [math]O(|s| \log(|s|))[/math]. Основная статья

Максимальная по длине ветвящаяся влево и вправо строка

Поиск максимальной по длине строки, ветвящейся влево и вправо за время [math]SA + O(n)[/math].

Самая длинная строка [math]p[/math], входящая в [math]t[/math] дважды и не пересекаясь

Поиск самой длинной строки [math]p[/math], входящей в строку [math]t[/math] дважды и не пересекаясь за [math]SA + O(n)[/math]

Решение: Построим суфмас строки [math]t[/math] и посчитаем на нем LCP алгоритмом Касаи, Аримуры, Арикавы, Ли, Парка. Рассмотрим какие-нибудь суффиксы [math]i[/math] и [math]j[/math] строки [math]t[/math]. Обозначим их позиции в суфмасе за [math]i'[/math] и [math]j'[/math], причем [math]i' \leq j'[/math]. Будем говорить, что строка [math]s[/math] соответствует каким-нибудь суффиксам [math]i[/math] и [math]j[/math], если она равна максимальному префиксу этих суффиксов. Будем говорить, что суффиксы [math]i[/math] и [math]j[/math] соответствуют строке [math]s[/math], если [math]s[/math] входит в [math]t[/math] дважды и не пересекаясь, а суффиксы [math]i[/math] и [math]j[/math] соответствуют позициям этих вхождений.

Введем два условия:

Утверждение:

Если для каких-нибудь суффиксов и соответствующая им строка удовлетворяет условиям 1 и 2, то она входит в дважды и не пересекаясь.

proof

Утверждение:

Если строка входит в дважды и не пересекаясь, то соответствующие ей суффиксы и удовлетворяют условиям 1 и 2.

proof

Т.о. строка входит в [math]t[/math] дважды и не пересекаясь тогда и только тогда, когда она удовлетворяет условиям 1 и 2.

Тогда на ум приходит следующий наивный алгоритм:

Построим суффиксный массив, посчитаем на нём LCP.
Переберем все пары [math]i[/math] и [math]j[/math] такие, что они удовлетворяют условиям 1 и 2 и возьмем среди них максимум по длине строки.

Этот алгоритм можно реализовать за [math]O(n^3)[/math] или, если немного подумать, то и за [math]O(n^2)[/math]. Однако, он не позволяет достигнуть нужной нам асимптотики.

Чтобы достигнуть асимптотики [math]O(n)[/math], будем перебирать всевозможные подстроки [math]s[/math] строки [math]t[/math], такие, что они входят в [math]t[/math] дважды и являются максимальными в том смысле, что [math]s[/math] удовлетворяет условию 2 при любых [math]i[/math] и [math]j[/math], где [math]i[/math] и [math]j[/math] - суффиксы, соответствующие двум любым вхождениям s в t (т.е. не обязательно непересекающимся). Для каждой такой строки [math]s[/math] попробуем найти [math]i[/math] и [math]j[/math], удовлетворяющие условию 1. Таким образом, мы рассмотрим все строки, соответствующие условиям 1 и 2, и, следовательно, найдем ответ. Алгоритм корректный.

Заметим теперь, что искомые строки [math]s[/math] — это префиксы суффиксов [math]k[/math] длины [math]lcp_k[/math]. Для того, чтобы найти для каждой такой строки [math]s[/math] суффиксы [math]i[/math] и [math]j[/math], удовлетворяющие условию 1, воспользуемся стеком. Алгоритм следующий:

Будем идти по суффиксному массиву в порядке лексикографической сортировки суффиксов. В стеке будем хранить префиксы уже рассмотренных суффиксов [math]k[/math] длины [math]lcp_k[/math] (т.е. строки [math]s[/math]) в порядке увеличения длины. Для каждой строки из стека также будем хранить минимальный по длине суффикс [math]i[/math] и максимальный по длине [math]j[/math]. Обозначим за [math]st[/math] вершину стека, а за [math]s[/math] — текущий рассматриваемый суффикс.
Возможны три случая:
1. [math]lcp_{st} = lcp_s[/math]. Тогда просто обновляем [math]i[/math] и [math]j[/math] для вершины стека: if ([math]len_i \gt len_s[/math]) then [math]i = s[/math];
2. [math]lcp_{st} \geq lcp_s[/math]. Тогда добавляем новую вершину в стек и обновляем для нее [math]i[/math] и [math]j[/math]: [math]i = j = s;[/math]
3. [math]lcp_{st} \leq lcp_s[/math]. Достаем вершину из стека и "пробрасываем" значения [math]i[/math] и [math]j[/math] из нее в новую вершину стека. Это нужно для того, чтобы не потерять значения [math]i[/math] и [math]j[/math], которые были посчитаны для строк большей длины, но так же актуальны для строк меньшей длины.
Если в какой-то момент [math]i[/math] и [math]j[/math] станут удовлетворять условию 1, обновляем ответ: if ([math]len_s \gt len_{ans}[/math]) then [math]s = ans[/math];

Т.к. для каждого суффикса мы выполняем [math]O(1)[/math] операций, то итоговое время работы [math]O(n)[/math]

См. также

Источники

Дэн Гасфилд — Строки, деревья и последовательности в алгоритмах: Информатика и вычислительная биология — СПб.: Невский Диалект; БХВ-Петербург, 2003. — 654 с: ил.
MAXimal :: algo :: Суффиксный массив
Википедия — Суффиксный массив
Wikipedia — Suffix array
Habrahabr — Суффиксный массив — удобная замена суффиксного дерева

Суффиксный массив

Содержание

Пример

Восстановление строки по суффиксному массиву

Вариант для бесконечного алфавита

Доказательство корректности

Псевдокод

Вариант для минимально возможного

Пример

Псевдокод

Доказательство минимальности

Применения

Поиск подстроки в строке

Подсчет LCP соседних лексикографически суффиксов

Количество различных подстрок в строке

Наименьший циклический сдвиг строки

Максимальная по длине ветвящаяся влево и вправо строка

Самая длинная строка [math]p[/math], входящая в [math]t[/math] дважды и не пересекаясь

См. также

Источники

Навигация

Персональные инструменты

Пространства имён

Варианты

Просмотры

Ещё

Поиск

Навигация

Инструменты