Алгоритм Касаи и др.
Версия от 10:25, 29 июня 2011; 192.168.0.2 (обсуждение)
Алгоритм Касаи (Аримуры-Арикавы-Касаи-Ли-Парка) — алгоритм, позволяющий за линейное время вычислить значения наибольших общих префиксов для соседних циклических сдвигов строки, отсортированных в лексикографическом порядке (largest common prefix, далее
).Обозначения
— данная строка.
— длина наибольшего общего префикса и строк в суффиксном массиве ( и соответственно).
— обратный суффиксный массив, удовлетворяющий свойству . Может быть построен одним линейным проходом по суффиксному массиву.
Все массивы и строка имеют 0-индексацию.
Описание алгоритма
Значения
считаются для все суффиксов строки последовательно. Значение считается наивным методом за линейное время. Покажем, как вычислить , если значение известно.Теорема: |
Если , то . |
Доказательство: |
, . Рассмотрим суффиксный массив и позиции в нем суффиксов : так как и суффикс отличаются только первым символом, как и с , то . Так как суффикс в суффиксном массиве предшествует суффиксу , то суффикс будет предшествовать суффиксу (но необязательно будет непосредственно предыдущим), то , , , откуда . |
Таким образом, начиная проверять
для текущего суффикса не с первого символа, а с указанного, можно за линейное время построить . Покажем, что построение таким образом действительно требует времени. Действительно, на каждой итерации текущее значение может быть не более чем на единицу меньше предыдущего. Таким образом, значения в сумме могут увеличиться не более, чем на 2N (с точностью до константы). Следовательно, алгоритм построит за .Источники
1. Алгоритм Касаи.
2. T.Kasai, G.Lee, H.Arimura, S.Arikawa, K.Park - Linear-Time Longest-Common-Prefix Computation in Suffix Arrays and Its Application.