Алгоритм Мейна-Лоренца — различия между версиями

Версия 18:19, 30 апреля 2015

Алгоритм Мейна-Лоренца (англ. Main-Lorentz algorithm) — алгоритм на строках, позволяющий найти все повторы в строке [math]s[1 \dotsc n][/math] за [math]O(n \log n)[/math]

Содержание

1 Алгоритм
- 1.1 Нахождение правых повтров
- 1.2 Нахождение левых повтров
2 Асимптотика
3 Источники информации
4 См. также

Алгоритм

Так как повторов строке [math] O(n^2)[/math], мы не можем хранить их в явном виде. Будем хранить несколько подряд идущих (по индексу конца) повторов одной длины блоками вида [math](length, first, last)[/math], где [math] length [/math] — это длина повтора, а [math] [first, last] [/math] — промежуток индексов, в каждом из которых заканчивается повтор такой длины. Для каждой длины может быть несколько блоков.

Данный алгоритм — это алгоритм типа "разделяй и властвуй": разделим строку пополам, рекурсивно запустимся от каждой половинки — так мы найдем повторы, которые не пересекают границу раздела. Далее рассмотрим процесс нахождения повторов, которые пересекают границу раздела. Их можно разделить на две группы по положению центра повтора: правые и левые.

Нахождение правых повтров

Рассмотрим строку [math]t[/math], пусть [math]shift[/math] — индекс начала [math]t[/math] в исходной строке [math]s[/math].

Разобьем ее на две строки [math] u [/math] и [math] v [/math].
Предподсчитаем следующие массивы c помощью Z-функции:
- , то есть наибольший общий префикс строк [math] v[i \dotsc v.len] [/math] и [math] v [/math]. Нахождение [math]lcp(a,\,b[i \dotsc b.len)[/math] можно осуществить следующим образом: вычислим для строки [math] a+'\#'+b [/math] Z-функцию. Очевидно, что в таком случае массивом [math]lcp[/math] будет массив значений Z-функции, начиная с индекса [math] a.len + 2 [/math].
- , то есть наибольший общий суффикс строк [math] v[1 \dotsc i][/math] и [math] u [/math]. Нахождение [math]lcs(a,\,b[1 \dotsc i)[/math] можно осуществить следующим образом: вычислим для строки Z-функцию. Очевидно, что в таком случае массивом [math]lcs[/math] будет перевернутый массив значений Z-функции, начиная с индекса [math] a.len + 2 [/math].
Переберем длину повтора [math] 2p [/math] и будем искать все повторы такой длины: для каждого [math] p \in [1, \, t.len /2][/math] получим интервал индексов конца повтора в строке [math] v [/math]: [math] [x, y] [/math] (по формуле, которую докажем позднее). Добавим полученный интервал к ответу, учитывая смещение в исходной строке [math] s [/math] :

Итоговая асимптотика: [math] O(t) [/math]

Докажем следующее утверждение для нахождения интервала [math] [x, y] [/math]:

Утверждение:

, где индекс конца повтора в строке .

Рассмотрим правый повтор [math]ww[/math].
Обозначим как [math]k[/math] ту часть первой полвины повтора, которая принадлежит [math]u[/math], а как [math]l[/math] — ту часть первого половины, которая принадлежит [math]v[/math]. Равные им подстроки во первой половине обозначим как [math]m[/math] и [math]n[/math](см. рисунок).

Разбиение строки

Пусть [math] b [/math] — длина [math]k[/math].
Заметим, что [math]w = k + l = m + n[/math] и [math] k = m, l = n [/math].
Тогда

[math](1)[/math] эквивалентно тому, что [math]u[/math] и [math]v[1 \dotsc p][/math] имеют общий суффикс длины не менее [math]b[/math]: [math]2p - i = b \leqslant RS[p][/math].

эквивалентно тому, что строки и имеют общий префикс длины не менее :

Нахождение левых повтров

Левые повторы находим аналогично правым, кроме вычисления интервала [math] [x, y] [/math] для заданного [math] p[/math] и, как следствие, предподсчета. Предподсчитаем с помощью Z-функции массивы:

, то есть наибольший общий префикс строк [math] u[i \dotsc u.len] [/math] и [math] v [/math]
, то есть наибольший общий суффикс строк [math] u[1 \dotsc i] [/math] и [math] u [/math]

Докажем следующее утверждение для нахождения интервала [math] [x, y] [/math]:

Утверждение:

Рассмотрим правый повтор [math]ww[/math].
Обозначим как [math]m[/math] ту часть первой второй повтора, которая принадлежит [math]u[/math], а как [math]n[/math] — ту часть второго половины, которая принадлежит [math]v[/math]. Равные им подстроки во второй половине обозначим как [math]k[/math] и [math]l[/math](см. рисунок).

Разбиение строки

Пусть [math] b [/math] — длина [math]k+l+m[/math]. Заметим, что [math]w = k + l = m + n[/math] и [math] k = m, l = n [/math].
Тогда

[math](1)[/math] эквивалентно тому, что [math]u[/math] и имеют общий префикс длины не менее [math]b - p = p - i[/math]: .

эквивалентно тому, что строки и имеют общий суффикс длины не менее :

Асимптотика

Асимптотика алгоритма "разделяй и властвуй", каждый рекурсивный запуск которого линеен относительно длины строки, [math] O(n \log n) [/math] из рекурентного соотношения [math]T(n)=2T(n/2)+O(n)[/math] (аналогичное доказательство для сортировки слиянием).

Количество блоков в ответе также будет [math] O(n \log n) [/math]: при каждом рекурсивном запуске добавляется [math] O(1) [/math] блоков для каждой рассмотренной длины повтора (их количество линейно относительно длины строки), из чего получаем аналогичное рекурентное соотношение [math]M(n)=2M(n/2)+O(n)[/math].

Источники информации

Main, M., Lorentz, R.J. — An O(n log n) Algorithm for Finding All Repetitions in a String. 1982
Билл Смит — Методы и алгоритмы вычислений на строках. Пер. с англ.— М.:Издательский дом "Вильямс", 2006. ISBN 5-8459-1081-1

См. также

@@ Строка 12: / Строка 12: @@
 # Предподсчитаем следующие массивы c помощью [[Z-функция | Z-функции]]:
 #* <tex> RP[i] = lcp(v[i \dotsc v.len], \, v) </tex>, то есть наибольший общий префикс строк <tex> v[i \dotsc v.len] </tex> и <tex> v </tex>. Нахождение <tex>lcp(a,\,b[i \dotsc b.len)</tex> можно осуществить следующим образом: вычислим для строки <math> a+'\#'+b </math> [[Z-функция | Z-функцию]]. Очевидно, что в таком случае массивом <tex>lcp</tex> будет массив значений Z-функции, начиная с индекса <tex> a.len + 2 </tex>.
-#* <tex> RS[i] = lcs(v[1 \dotsc i], \, u) </tex>, то есть наибольший общий суффикс строк <tex> v[1 \dotsc i]</tex> и <tex> u </tex>
+#* <tex> RS[i] = lcs(v[1 \dotsc i], \, u) </tex>, то есть наибольший общий суффикс строк <tex> v[1 \dotsc i]</tex> и <tex> u </tex>. Нахождение <tex>lcs(a,\,b[1 \dotsc i)</tex> можно осуществить следующим образом: вычислим для строки <math> reverse(a)+'\#'+reverse(b) </math> [[Z-функция | Z-функцию]]. Очевидно, что в таком случае массивом <tex>lcs</tex> будет перевернутый массив значений Z-функции, начиная с индекса <tex> a.len + 2 </tex>.
 # Переберем длину повтора <tex> 2p </tex> и будем искать все повторы такой длины: для каждого <tex> p \in [1, \, t.len /2]</tex> получим интервал индексов конца повтора в строке <tex> v </tex>: <tex> [x, y] </tex> (по формуле, которую докажем позднее). Добавим полученный интервал к ответу, учитывая смещение в исходной строке <tex> s </tex> : <tex>(2p, x + shift + u.len, y + shift + u.len) </tex>

Алгоритм Мейна-Лоренца — различия между версиями

Версия 18:19, 30 апреля 2015

Содержание

Алгоритм

Нахождение правых повтров

Нахождение левых повтров

Асимптотика

Источники информации

См. также

Навигация

Персональные инструменты

Пространства имён

Варианты

Просмотры

Ещё

Поиск

Навигация

Инструменты