Алгоритм Касаи и др. — различия между версиями
Maryann (обсуждение | вклад) м |
Maryann (обсуждение | вклад) (→Описание алгоритма) |
||
Строка 51: | Строка 51: | ||
}} | }} | ||
− | ==Описание алгоритма== | + | ==Описание алгоритма и псевдокод== |
Таким образом, начиная проверять <tex>LCP</tex> для текущего суффикса не с первого символа, а с указанного, можно за линейное время построить <tex>LCP</tex>. | Таким образом, начиная проверять <tex>LCP</tex> для текущего суффикса не с первого символа, а с указанного, можно за линейное время построить <tex>LCP</tex>. | ||
Покажем, что построение <tex>LCP</tex> таким образом действительно требует <tex>O(N)</tex> времени. Действительно, на каждой итерации текущее значение <tex>LCP</tex> может быть не более | Покажем, что построение <tex>LCP</tex> таким образом действительно требует <tex>O(N)</tex> времени. Действительно, на каждой итерации текущее значение <tex>LCP</tex> может быть не более | ||
чем на единицу меньше предыдущего. Таким образом, значения <tex>LCP</tex> в сумме могут увеличиться не более, чем на <tex>2N</tex> (с точностью до константы). Следовательно, алгоритм построит <tex>LCP</tex> за <tex>O(N)</tex>. | чем на единицу меньше предыдущего. Таким образом, значения <tex>LCP</tex> в сумме могут увеличиться не более, чем на <tex>2N</tex> (с точностью до константы). Следовательно, алгоритм построит <tex>LCP</tex> за <tex>O(N)</tex>. | ||
+ | |||
+ | |||
+ | '''int[]''' build_lcp(str : '''string''', suf : '''int[]''') // str {{---}} исходная строка с добавленным специальным символом $ | ||
+ | // suf[] {{---}} суффиксный массив строки str | ||
+ | '''int''' len <tex>\leftarrow</tex> str.length | ||
+ | '''int[len]''' lcp | ||
+ | '''int[len]''' pos // pos[] {{---}} массив, обратный массиву suf | ||
+ | '''for''' i = 0 '''to''' len - 1 | ||
+ | pos[suf[i]] <tex>\leftarrow</tex> i | ||
+ | '''int''' k <tex>\leftarrow</tex> 0 | ||
+ | '''for''' i = 0 '''to''' len - 1 | ||
+ | '''if''' k > 0 | ||
+ | k-- | ||
+ | '''if''' pos[i] == len - 1 | ||
+ | lcp[len - 1] <tex>\leftarrow</tex> -1 | ||
+ | k <tex>\leftarrow</tex> 0 | ||
+ | '''else''' | ||
+ | '''int''' j <tex>\leftarrow</tex> suf[pos[i] + 1] | ||
+ | '''while''' str[i + k] == str[j + k] | ||
+ | k++ | ||
+ | lcp[pos[i]] <tex>\leftarrow</tex> k; | ||
+ | '''return''' lcp | ||
==Источники информации== | ==Источники информации== |
Версия 16:30, 12 июня 2014
Алгоритм Касаи (Аримуры-Арикавы-Касаи-Ли-Парка) — алгоритм, позволяющий за линейное время вычислить длину наибольших общих префиксов для соседних циклических сдвигов строки, отсортированных в лексикографическом порядке (largest common prefix, далее
).Содержание
Обозначения
Задана строка
. Тогда — суффикс строки , начинающийся в -ом символе. Пусть задан суффиксный массив . Для вычисления будем использовать промежуточный массив . Массив определен как обратный к массиву . Он может быть получен немедленно, если задан массив . Если , то .— длина наибольшего общего префикса и строк в суффиксном массиве ( и соответственно).
Некоторые свойства
Факт №1
между двумя суффиксами — это минимум всех пар соседних суффиксов между ними в суффиксном массиве . То есть . Отсюда следует, что пары соседних суффиксов в массиве больше или равно пары суффиксов, окружающих их.
Утверждение: |
Факт №2
Если значение
Утверждение: |
Если , тогда |
Факт №3
В этом же случае, значение
Утверждение: |
Если , тогда |
Вспомогательные утверждения
Теперь рассмотрим следующую задачу: рассчитать
между суффиксом и его соседним суффиксом в массиве , при условии, что значение между и его соседним суффиксом известны. Для удобства записи пусть и . Так же пусть и . Проще говоря, мы хотим посчитать , когда заданоЛемма: |
Если , тогда |
Доказательство: |
Так как | , имеем из факта №2. Так как , имеем из факта №1
Теорема: |
Если , то |
Доказательство: |
(из леммы) Значит, (из факта №3). |
Описание алгоритма и псевдокод
Таким образом, начиная проверять
для текущего суффикса не с первого символа, а с указанного, можно за линейное время построить . Покажем, что построение таким образом действительно требует времени. Действительно, на каждой итерации текущее значение может быть не более чем на единицу меньше предыдущего. Таким образом, значения в сумме могут увеличиться не более, чем на (с точностью до константы). Следовательно, алгоритм построит за .
int[] build_lcp(str : string, suf : int[]) // str — исходная строка с добавленным специальным символом $ // suf[] — суффиксный массив строки str int lenstr.length int[len] lcp int[len] pos // pos[] — массив, обратный массиву suf for i = 0 to len - 1 pos[suf[i]] i int k 0 for i = 0 to len - 1 if k > 0 k-- if pos[i] == len - 1 lcp[len - 1] -1 k 0 else int j suf[pos[i] + 1] while str[i + k] == str[j + k] k++ lcp[pos[i]] k; return lcp