Изменения

Алгоритм Мейна-Лоренца

1333 байта добавлено, 21:34, 30 апреля 2015

Нет описания правки

~~{{Определение|definition ='''Повтором''' (англ. ''repeatition'') называется непустая строка вида <math>\alpha\alpha</math>~~}}'''Алгоритм Мейна-Лоренца''' (англ. ''Main-Lorentz algorithm'') {{---}} алгоритм на строках, позволяющий найти все [[Основные_определения,_связанные_со_строками#repetition | тандемные повторы ]] в строке <tex>s[1..\dotsc n]</tex> за <tex>O(n \log n)</tex>

== Алгоритм ==

Так как повторов строке <tex> ~~\Omega~~O(n^2)</tex>, мы не можем хранить их в явном виде. Будем хранить ~~повторы~~ несколько подряд идущих (по индексу конца) повторов одной длины блоками вида <tex>(length, first, last)</tex>, где <tex> length </tex> {{---}} это длина повтора, а <tex> [first, last] </tex> {{---}} промежуток индексов, в каждом из которых ~~заканчиваются повторы~~ заканчивается повтор такой длины. Для каждой длины может быть несколько блоков. ~~Данный алгоритм {{---}} это алгоритм типа "разделяй и властвуй":# Разделим строку пополам# Заметим, что повторы делятся на две группы: пересекающие и не пересекающие границу раздела# Рекурсивно запустимся от каждой половинки {{---}} так мы найдем повторы, которые не пересекают границу раздела# Далее рассмотрим процесс нахождения повторов, которые пересекают границу раздела~~

~~Повторы~~Данный алгоритм {{---}} это алгоритм типа "разделяй и властвуй": разделим строку пополам, ~~пересекающие~~ рекурсивно запустимся от каждой половинки {{---}} так мы найдем повторы, которые не пересекают границу раздела. Далее рассмотрим процесс нахождения повторов, которые пересекают границу раздела. Их можно разделить на две группы по положению центра повтора: правые и левые.

=== Нахождение правых повтров ===

Рассмотрим строку <tex>t ~~= u + v~~</tex>, пусть <tex>shift</tex> {{---}} индекс начала <tex>t</tex> в исходной строке <tex>s</tex>. # Разобьем ее на две строки <tex> u </tex> и <tex> v </tex>.# Предподсчитаем следующие массивы c помощью [~~http://neerc.ifmo.ru/wiki/index.php?title=~~[Z-~~%D1%84%D1%83%D0%BD%D0%BA%D1%86%D0%B8%D1%8F~~ функция | Z-функции]]:## * <tex> RP[i] = lcp(v[i..\dotsc v.len], \, v) </tex>, то есть наибольший общий префикс строк <tex> v[i..\dotsc v.len] </tex> и <tex> v</tex>. Нахождение <tex>lcp(a,\,b[i \dotsc b.len])</tex> можно осуществить следующим образом: вычислим для строки <math> a+'\#'+b </math> [[Z-функция | Z-функцию]]. Очевидно, что в таком случае массивом <tex>lcp</tex> будет массив значений Z-функции, начиная с индекса <tex> a.len + 2 </tex>.## * <tex> RS[i] = lcs(v[1..\dotsc i], \, u) </tex>, то есть наибольший общий суффикс строк <tex> v[1..\dotsc i] </tex> и <tex> u</tex>. Нахождение <tex>lcs(a,\,b[1 \dotsc i)</tex> можно осуществить следующим образом: вычислим для строки <math> reverse(a)+'\#'+reverse(b) </math> [[Z-функция | Z-функцию]]. Очевидно, что в таком случае массивом <tex>lcs</tex> будет перевернутый массив значений Z-функции, начиная с индекса <tex> a.len + 2 </tex>.# Переберем длину повтора <tex> 2p </tex> и будем искать все повторы такой длины~~. Для этого~~ : для каждого <tex> p \in [1, \, t.len /2]</tex> получим интервал индексов конца повтора в строке <tex> v </tex>: <tex> [x, y] </tex>(по формуле, которую докажем позднее ~~покажем, как это сделать~~).# Добавим полученный интервал к ответу, учитывая смещение в исходной строке <tex> s </tex> : <tex>(2p, x + shift + u.len, y + shift + u.len) </tex>

Итоговая асимптотика: <tex> O(t) </tex>

{{Утверждение

|id=kindscount

|statement=<math>2p -RS[p] \leqslant i \leqslant p - RP[p + 1]</math>, где <tex>i</tex> {{---}} индекс конца повтора длины <tex>2p</tex> в строке <tex>v</tex>.

|proof= Рассмотрим правый повтор <tex>ww</tex>.

Обозначим как <tex>k</tex> ту часть первой полвины повтора, которая принадлежит <tex>u</tex>, а как <tex>l</tex> {{---}} ту часть первого половины, которая принадлежит <tex>v</tex>. Равные им подстроки во первой половине обозначим как <tex>m</tex> и <tex>n</tex>(см. рисунок).

Разбиение строки <tex>t</tex>, с индексацией <tex>u</tex> и <tex>v</tex> :

[[Файл:RightRepetition.png|600px]]

Пусть <tex> b </tex> {{---}} длина <tex>k</tex>.

Заметим, что <tex>w = k + l = m + n</tex> и <tex> k = m, l = n </tex>.

Тогда

# <tex> k = u[(u.len - b + 1) .. \dotsc u.len] = m = v[(i - p + 1) .. \dotsc p] </tex> # <tex> l = v[1 .. \dotsc (i - p)] = n = v[(p + 1) .. \dotsc i] </tex><tex>(1)</tex> эквивалентно тому, что <tex>u</tex> и <tex>v[1 .. \dotsc p]</tex> имеют общий суффикс длины не менее <tex>b</tex>: <tex>2p - i = b \leqslant RS[p]</tex>. <tex>(2)</tex> эквивалентно тому, что строки <tex> v</tex> и <tex> v[p+1..\dotsc v.len]</tex> имеют общий префикс длины не менее <tex>p-b = i-p</tex>: <tex>i - p \leqslant RP[p + 1] </tex>

}}

=== Нахождение левых повтров ===

~~Рассмотрим строку~~ Левые повторы находим аналогично правым, кроме вычисления интервала <tex>~~t = u + v</tex>~~[x, ~~пусть <tex>shift~~y] </tex> ~~{{---}} индекс начала~~ для заданного <tex>~~t</tex> в исходной строке <tex>s~~p</tex> и, как следствие, предподсчета. # Предподсчитаем ~~следующие массивы~~ с помощью [~~http://neerc.ifmo.ru/wiki/index.php?title=~~[Z-~~%D1%84%D1%83%D0%BD%D0%BA%D1%86%D0%B8%D1%8F~~ функция | Z-функции]] массивы:## * <tex> LP[i] = lcp(u[i..\dotsc u.len], \, v) </tex>, то есть наибольший общий префикс строк <tex> u[i..\dotsc u.len] </tex> и <tex> v</tex>## * <tex> LS[i] = lcs(u[1..\dotsc i], \, u) </tex>, ~~где <tex> lcs </tex> {{---}}~~ то есть наибольший общий суффикс# Переберем длину повтора <tex> 2p </tex> и будем искать все повторы такой длины. Для этого для каждого <tex> p </tex> получим интервал индексов конца повтора в строке <tex> v </tex>: строк <tex> u[~~x, y~~1 \dotsc i] </tex>~~(позднее покажем, как это сделать).# Добавим к ответу, учитывая смещение в исходной строке <tex> s </tex> :~~ и <tex>~~(2p, x + shift +~~ u~~.len, y + shift + u.len) </tex>~~ ~~Итоговая асимптотика: <tex> O(t)~~ </tex>

Докажем следующее утверждение для нахождения интервала <tex> [x, y] </tex>:

{{Утверждение

|id=kindscount

|statement=<math> p - LS[u.len - p] \leqslant i \leqslant LP[u.len - p + 1] </math>, где <tex>i</tex> {{---}} индекс конца повтора длины <tex>2p</tex> в строке <tex>v</tex>.

|proof= Рассмотрим правый повтор <tex>ww</tex>.

Обозначим как <tex>m</tex> ту часть первой второй повтора, которая принадлежит <tex>u</tex>, а как <tex>n</tex> {{---}} ту часть второго половины, которая принадлежит <tex>v</tex>. Равные им подстроки во второй половине обозначим как <tex>k</tex> и <tex>l</tex>(см. рисунок).

Разбиение строки <tex>t</tex>, с индексацией <tex>u</tex> и <tex>v</tex>:

[[Файл:LeftRepetition.png|600px]]

Пусть <tex> b </tex> {{---}} длина <tex>k+l+m</tex>.

Заметим, что <tex>w = k + l = m + n</tex> и <tex> k = m, l = n </tex>.

Тогда

# <tex> k = u[(u.len - b + 1) .. \dotsc (u.len - p)] = m = u[(u.len - b + p + 1) \dotsc .. u.len] </tex> # <tex> l = u[(u.len - p + 1) ~~....~~ \dotsc (u.len - b + p)] = n = v[1 ~~...~~ \dotsc . i] </tex><tex>(1)</tex> эквивалентно тому, что <tex>u</tex> и <tex>u[(u.len - b + 1) .. \dotsc u.len]</tex> имеют общий префикс длины не менее <tex>b - p = p - i</tex>: <tex> p - i \leqslant LS[u.len - p]</tex>. <tex>(2)</tex> эквивалентно тому, что строки <tex> v</tex> и <tex> u[(u.len - p)..\dotsc u.len]</tex> имеют общий суффикс длины не менее <tex>i</tex>: <tex>i \leqslant LP[u.len - p + 1] </tex>

}}

== Асимптотика ==

~~Ассимптотика~~ Асимптотика алгоритма "разделяй и властвуй", каждый рекурсивный запуск которого линеен относительно длины строки, <tex> O(n \log n) </tex> из рекурентного соотношения <tex>T(n)=2T(n/2)+O(n)</tex> (аналогичное доказательство для [~~http~~[Сортировка слиянием | сортировки слиянием]]). Количество блоков в ответе также будет <tex> O(n \log n) </tex>:на каждом рекурсивном запуске при рассмотрении повторов, которые пересекают границу раздела, добавляется <tex> O(1) </tex> блоков для каждой рассмотренной длины повтора (их количество линейно относительно длины строки), из чего получаем аналогичное рекурентное соотношение <tex>M(n)=2M(n/~~neerc.ifmo.ru~~2)+O(n)</~~wiki/index~~tex>.~~php?title~~ ==%D0%A1%D0%BE%D1%80%D1%82%D0%B8%D1%80%D0%BE%D0%B2%D0%BA%D0%B0_%D1%81%D0%BB%D0%B8%D1%8F%D0%BD%D0%B8%D0%B5%D0%BC#.D0.92.D1.80.D0.B5.D0.BC.D1.8F_.D1.80.D0.B0.D0.B1.D0.BE.D1.82.D1.8B сортировки слиянием])См.также ==

Количество блоков в ответе также будет <tex> O(n \log n) </tex>, так как при каждом рекрсивном запуске добавляется <tex> O(1) </tex> блоков для каждой рассмотренной длины повтора, а их количество линейно относительно длины строки.* [[Алгоритм Ландау-Шмидта]]* [[Алгоритм Крочемора]]

== Источники информации ==

* ''Main, M., Lorentz, R.J.'' — '''An O(n log n) Algorithm for Finding All Repetitions in a String'''. 1982

* ''Билл Смит'' — '''Методы и алгоритмы вычислений на строках'''. Пер. с англ.{{---}} М.:Издательский дом "Вильямс", 2006. ISBN 5-8459-1081-1

* [http://e-maxx.ru/algo/string_tandems MAXimal :: algo :: Поиск всех тандемных повторов в строке. Алгоритм Мейна-Лоренца]

[[Категория: Алгоритмы и структуры данных]]

[[Категория: Основные определения. Простые комбинаторные свойства слов]]

Mariashka

102

правки

Изменения

Алгоритм Мейна-Лоренца

Навигация

Персональные инструменты

Пространства имён

Варианты

Просмотры

Ещё

Поиск

Навигация

Инструменты