Алгоритм Мейна-Лоренца — различия между версиями
Mariashka (обсуждение | вклад) |
Mariashka (обсуждение | вклад) |
||
Строка 9: | Строка 9: | ||
=== Нахождение правых повтров === | === Нахождение правых повтров === | ||
Рассмотрим строку <tex>t</tex>, пусть <tex>shift</tex> {{---}} индекс начала <tex>t</tex> в исходной строке <tex>s</tex>.<br> | Рассмотрим строку <tex>t</tex>, пусть <tex>shift</tex> {{---}} индекс начала <tex>t</tex> в исходной строке <tex>s</tex>.<br> | ||
− | Разобьем ее на две строки <tex> u </tex> и <tex> v </tex>. | + | # Разобьем ее на две строки <tex> u </tex> и <tex> v </tex>. |
− | |||
# Предподсчитаем следующие массивы c помощью [[Z-функция | Z-функции]]: | # Предподсчитаем следующие массивы c помощью [[Z-функция | Z-функции]]: | ||
## <tex> RP[i] = lcp(v[i \dotsc v.len], \, v) </tex>, то есть наибольший общий префикс строк <tex> v[i \dotsc v.len] </tex> и <tex> v </tex> | ## <tex> RP[i] = lcp(v[i \dotsc v.len], \, v) </tex>, то есть наибольший общий префикс строк <tex> v[i \dotsc v.len] </tex> и <tex> v </tex> | ||
Строка 38: | Строка 37: | ||
=== Нахождение левых повтров === | === Нахождение левых повтров === | ||
Рассмотрим строку <tex>t</tex>, пусть <tex>shift</tex> {{---}} индекс начала <tex>t</tex> в исходной строке <tex>s</tex>.<br> | Рассмотрим строку <tex>t</tex>, пусть <tex>shift</tex> {{---}} индекс начала <tex>t</tex> в исходной строке <tex>s</tex>.<br> | ||
− | Разобьем ее на две строки <tex> u </tex> и <tex> v </tex>. | + | # Разобьем ее на две строки <tex> u </tex> и <tex> v </tex>. |
− | |||
# Предподсчитаем следующие массивы с помощью [[Z-функция | Z-функции]]: | # Предподсчитаем следующие массивы с помощью [[Z-функция | Z-функции]]: | ||
## <tex> LP[i] = lcp(u[i \dotsc u.len], \, v) </tex>, то есть наибольший общий префикс строк <tex> u[i \dotsc u.len] </tex> и <tex> v </tex> | ## <tex> LP[i] = lcp(u[i \dotsc u.len], \, v) </tex>, то есть наибольший общий префикс строк <tex> u[i \dotsc u.len] </tex> и <tex> v </tex> |
Версия 16:57, 30 апреля 2015
Алгоритм Мейна-Лоренца (англ. Main-Lorentz algorithm) — алгоритм на строках, позволяющий найти все повторы в строке за
Содержание
Алгоритм
Так как повторов строке
, мы не можем хранить их в явном виде. Будем хранить повторы блоками вида , где — это длина повтора, а — промежуток индексов, в каждом из которых заканчивается повтор такой длины. Для каждой длины может быть несколько блоков.Данный алгоритм — это алгоритм типа "разделяй и властвуй": разделим строку пополам, рекурсивно запустимся от каждой половинки — так мы найдем повторы, которые не пересекают границу раздела. Далее рассмотрим процесс нахождения повторов, которые пересекают границу раздела. Их можно разделить на две группы по положению центра повтора: правые и левые.
Нахождение правых повтров
Рассмотрим строку
- Разобьем ее на две строки и .
- Предподсчитаем следующие массивы c помощью Z-функции:
- , то есть наибольший общий префикс строк и
- , то есть наибольший общий суффикс строк и
- Переберем длину повтора и будем extvisiblespaceискать все повторы такой длины. Для этого для каждого получим интервал индексов конца повтора в строке : (позднее покажем, как это сделать).
- Добавим к ответу, учитывая смещение в исходной строке :
Итоговая асимптотика:
Докажем следующее утверждение для нахождения интервала
:Нахождение левых повтров
Рассмотрим строку
- Разобьем ее на две строки и .
- Предподсчитаем следующие массивы с помощью Z-функции:
- , то есть наибольший общий префикс строк и
- , где — наибольший общий суффикс строк и
- Переберем длину повтора и будем искать все повторы такой длины. Для этого для каждого получим интервал индексов конца повтора в строке : (позднее покажем, как это сделать).
- Добавим к ответу, учитывая смещение в исходной строке :
Итоговая асимптотика:
Докажем следующее утверждение для нахождения интервала
:Асимптотика
Асимптотика алгоритма "разделяй и властвуй", каждый рекурсивный запуск которого линеен относительно длины строки, сортировки слиянием).
из рекурентного соотношения (аналогичное доказательство дляКоличество блоков в ответе также будет
, так как при каждом рекрсивном запуске добавляется блоков для каждой рассмотренной длины повтора, а их количество линейно относительно длины строки.Источники
- Main, M., Lorentz, R.J. — An O(n log n) Algorithm for Finding All Repetitions in a String. 1982
- Билл Смит — Методы и алгоритмы вычислений на строках. Пер. с англ.— М.:Издательский дом "Вильямс", 2006. ISBN 5-8459-1081-1