Алгоритм Касаи и др. — различия между версиями
Maryann (обсуждение | вклад) (→Описание алгоритма) |
Maryann (обсуждение | вклад) м (→Описание алгоритма и псевдокод) |
||
| Строка 57: | Строка 57: | ||
| − | '''int[]''' build_lcp(str : '''string''', suf : '''int[]''') // str {{---}} исходная строка с добавленным специальным символом $ | + | '''int[]''' build_lcp(str : '''string''', suf : '''int[]''') <font color=green> // str {{---}} исходная строка с добавленным специальным символом $ </font> |
| − | // suf[] {{---}} суффиксный массив строки str | + | <font color=green> // suf[] {{---}} суффиксный массив строки str </font> |
'''int''' len <tex>\leftarrow</tex> str.length | '''int''' len <tex>\leftarrow</tex> str.length | ||
'''int[len]''' lcp | '''int[len]''' lcp | ||
| − | '''int[len]''' pos | + | '''int[len]''' pos <font color=green> // pos[] {{---}} массив, обратный массиву suf </font> |
'''for''' i = 0 '''to''' len - 1 | '''for''' i = 0 '''to''' len - 1 | ||
pos[suf[i]] <tex>\leftarrow</tex> i | pos[suf[i]] <tex>\leftarrow</tex> i | ||
Версия 16:34, 12 июня 2014
Алгоритм Касаи (Аримуры-Арикавы-Касаи-Ли-Парка) — алгоритм, позволяющий за линейное время вычислить длину наибольших общих префиксов для соседних циклических сдвигов строки, отсортированных в лексикографическом порядке (largest common prefix, далее ).
Содержание
Обозначения
Задана строка . Тогда — суффикс строки , начинающийся в -ом символе. Пусть задан суффиксный массив . Для вычисления будем использовать промежуточный массив . Массив определен как обратный к массиву . Он может быть получен немедленно, если задан массив . Если , то .
— длина наибольшего общего префикса и строк в суффиксном массиве ( и соответственно).
Некоторые свойства
Факт №1
между двумя суффиксами — это минимум всех пар соседних суффиксов между ними в суффиксном массиве . То есть . Отсюда следует, что пары соседних суффиксов в массиве больше или равно пары суффиксов, окружающих их.
| Утверждение: |
Факт №2
Если значение между парой суффиксов, соседних в массиве , больше , то можно удалить первый символ каждого суффикса и лексикографический порядок суффиксов сохранится.
| Утверждение: |
Если , тогда |
Факт №3
В этом же случае, значение между и на один меньше значения между и .
| Утверждение: |
Если , тогда |
Вспомогательные утверждения
Теперь рассмотрим следующую задачу: рассчитать между суффиксом и его соседним суффиксом в массиве , при условии, что значение между и его соседним суффиксом известны. Для удобства записи пусть и . Так же пусть и . Проще говоря, мы хотим посчитать , когда задано
| Лемма: |
Если , тогда |
| Доказательство: |
| Так как , имеем из факта №2. Так как , имеем из факта №1 |
| Теорема: |
Если , то |
| Доказательство: |
|
(из леммы) (из факта №3). Значит, |
Описание алгоритма и псевдокод
Таким образом, начиная проверять для текущего суффикса не с первого символа, а с указанного, можно за линейное время построить . Покажем, что построение таким образом действительно требует времени. Действительно, на каждой итерации текущее значение может быть не более чем на единицу меньше предыдущего. Таким образом, значения в сумме могут увеличиться не более, чем на (с точностью до константы). Следовательно, алгоритм построит за .
int[] build_lcp(str : string, suf : int[]) // str — исходная строка с добавленным специальным символом $
// suf[] — суффиксный массив строки str
int len str.length
int[len] lcp
int[len] pos // pos[] — массив, обратный массиву suf
for i = 0 to len - 1
pos[suf[i]] i
int k 0
for i = 0 to len - 1
if k > 0
k--
if pos[i] == len - 1
lcp[len - 1] -1
k 0
else
int j suf[pos[i] + 1]
while str[i + k] == str[j + k]
k++
lcp[pos[i]] k;
return lcp