Изменения

Декомпозиция Линдона

536 байт добавлено, 22:26, 2 мая 2014

Нет описания правки

Декомпозиция Линдона была изобретена Роджером Линдоном (англ. ''Roger Lyndon'') в 1954 году. Она используется для нахождения лексикографически минимального и максимального суффиксов строки.

==Основные определения==

Декомпозиция Линдона была изобретена Роджером Линдоном (англ. ''Roger Lyndon'') в 1954 году. Она используется для нахождения лексикографически минимального и максимального суффиксов строки.

{{Определение

|id=def1.

|definition='''Простая строка''' {{---}} строка, которая ~~строго~~ лексикографически меньше любого своего суффикса.

}}

Примеры:

<tex>ababb</tex> {{---}} простая строка, так как <tex>ababb < babb</tex>, <tex>ababb < abb</tex>, <tex>ababb < bb</tex>, <tex>ababb < b</tex>.

<tex>babaa</tex> {{---}} не простая строка, так как <tex>babaa > aa</tex>.

{{Определение

|id=def2.

|definition='''Декомпозиция Линдона''' (англ. ''Lyndon decomposition'') строки <tex>s</tex> {{---}} её разложение <tex>s = ~~s_1 + s_2 +~~ s_1s_2... + s_k</tex>, где строки <tex>s_i</tex> просты, и при этом <tex>s_1 \geqslant s_2 \geqslant ... \geqslant s_k</tex>.

}}

{{Лемма

|id=lemma

|statement=<tex>s </tex>, <tex>t</tex> {{---}} простые и <tex>s < t</tex> лексикографически. Тогдаверны следующие утверждения:

1. <tex>s + t < t</tex>

2. <tex>s + t</tex> {{---}} простая

|proof=

1. Так как <tex>s < t</tex>, <tex>\mathcal {9} i : s[i] < t[i]</tex> и <tex>s[j] = t[j]</tex>, <tex>j < i \rightarrow s + t < t</tex>

~~2. <tex>|s| \leqslant |t|</tex>~~

~~Пусть <tex>u</tex> {{---}} суффикс строки <tex>s + t</tex>~~

2. Пусть <tex>u</tex> {{---}} суффикс строки <tex>s + t</tex> 1) <tex>|u| = |t| \rightarrow u = t \rightarrow u > s + t</tex>по пункту 1.

2) <tex>|u| < |t| \rightarrow u</tex> {{---}} суффикс <tex>t</tex>. Так как <tex>t</tex> {{---}} простая, <tex>t < u по определению \rightarrow s + t < t < u</tex>

3) <tex>|u| > |t| \rightarrow s = s' + s''</tex>, <tex>u = s'' + t</tex>. Так как <tex>s</tex> {{---}} простая, <tex>s < s''</tex> и <tex>|s''| < |s| \rightarrow s + t < s'' + t</tex>

Пусть в нем есть <tex>s_i < s_{i+1}</tex>, тогда эти строки можно сконкатернировать <tex>\rightarrow</tex> получим разбиение с меньшим числом слов {{---}} противоречие с выбором <tex>k</tex>.

Получили: <tex>k</tex> {{---}} минимально <tex>\~~leftrightarrow~~Leftrightarrow</tex> нет <tex>s_i < s_{i+1}</tex>

2. Единственность.

Пусть существует несколько разбиений <tex>s = ~~s_1 + s_2 +~~ s_1s_2... + s_k = s_1' + s_2' + ... + s_k'</tex>,

удовлетворяющих условию теоремы.

Сравним длины первых двух слов <tex>s_1</tex> и <tex>s_1'</tex>, если <tex>|s_1| = |s_1'|</tex>, сравним вторые и так далее.

1) Пусть <tex>|s_i| > |s_i'|</tex>

Тогда <tex>s_i = s_i' + s_{i+1}' + ... + t</tex>, где <tex>t</tex> {{---}} префикс <tex>s_{j+1}'</tex>, <tex>i \leqslant j</tex>

Получаем: <tex>s_i < t</tex> (так как <tex>s_i</tex> простая и по определению меньше своего суффикса),

<tex>t < s_{j+1}'</tex> (так как <tex>t</tex> {{---}} префикс),

==Алгоритм Дюваля==

===Алгоритм===

Алгоритм Дюваля (англ. ''Duval's algorithm'') находит для данной строки длины <tex>n</tex> декомпозицию Линдона за время <tex>O(n)</tex> с использованием <tex>O(1)</tex> дополнительной памяти. ~~Относится~~ Он строит декомпозицию только на упорядоченных алфавитах. Алгоритм Дюваля относится к классу жадных алгоритмов.

{{Определение

|id=def3

|definition='''Предпростая строка''' {{---}} строка <tex>s</tex>, такая что <tex>s = ~~w + w +~~ ww... ~~+ w + w~~ww'</tex>, где <tex>w</tex> {{---}} некоторая простая строка, а <tex>w'</tex> {{- --}} некоторый префикс строки <tex>w</tex>.

}}

Во время работы алгоритма строка <tex>s</tex> разделена на три строки <tex>s = ~~s_1 + s_2 + s_3~~s_1s_2s_3</tex>, где в строке <tex>s_1</tex> декомпозиция Линдона уже найдена и <tex>s_1</tex> уже больше не используется алгоритмом; строка <tex>s_2</tex> {{---}} это предпростая строка (причём длину простых строк внутри неё мы также запоминаем); строка <tex>s_3</tex> {{---}} это ещё не обработанная часть строки <tex>s</tex>. Алгоритм Дюваля берёт первый символ строки <tex>s_3</tex> и пытается дописать его к строке <tex>s_2</tex>. При этом, возможно, для какого-то префикса строки <tex>s_2</tex> декомпозиция Линдона становится известной, и эта часть переходит к строке <tex>s_1</tex>.

Будем поддерживаться указатель <tex>i</tex> на начало строки <tex>s_2</tex>. Внешний цикл алгоритма будет выполняться, пока <tex>i < n</tex>, то есть пока вся строка <tex>s</tex> не перейдёт в строку <tex>s_1</tex>. Внутри этого цикла создаются два указателя: указатель <tex>j</tex> на начало строки <tex>s_3</tex> и указатель <tex>k</tex> на текущий символ в строке <tex>s_2</tex>, с которым будет производиться сравнение. Затем будем в цикле пытаться добавить символ <tex>s[j]</tex> к строке <tex>s_2</tex>, для чего необходимо произвести сравнение с символом <tex>s[k]</tex>. Здесь у нас возникают три различных случая:

i <tex>\leftarrow</tex> 0

w <tex>\leftarrow</tex> 0

'''while''' (i < n) {

j <tex>\leftarrow</tex> i + 1

k <tex>\leftarrow</tex> i

'''while''' (j < n '''and ''' s[k] <= s[j]) {

'''if''' s[k] < s[j]

k <tex>\leftarrow</tex> i

j <tex>\leftarrow</tex> j + 1

}

'''while''' (i <= tex>\leqslant</tex> k) {

words[w] <tex>\leftarrow</tex> s[i..j-k]

w <tex>\leftarrow</tex> w + 1

Дополнительная память требуется только на три указателя: <tex>i, j, k</tex>.

Внешний цикл <tex>while </tex> делает не более <tex>n</tex> итераций, поскольку в конце каждой его итерации к результату добавляется как минимум один символ (а всего символов <tex>n</tex>).

Оценим теперь количество итераций первого вложенного цикла <tex>while</tex>. Для этого рассмотрим второй вложенный цикл <tex>while </tex> {{---}} он при каждом своём запуске выводит некоторое количество <tex>r \geqslant 1</tex> копий одной и той же простой строки некоторой длины <tex>p = j - k</tex>. Заметим, что строка <tex>s_2</tex> является предпростой, причём её простые строки имеют длину как раз <tex>p</tex>, т.е. её длина не превосходит <tex>r * \cdot p + p - 1</tex>. Поскольку длина строки <tex>s_2</tex> равна <tex>j - i</tex>, а указатель <tex>j</tex> увеличивается по единице на каждой итерации первого вложенного цикла <tex>while</tex>, то этот цикл выполнит не более <tex>r* \cdot p + p - 2</tex> итераций. Худшим случаем является случай <tex>r = 1</tex>, и мы получаем, что первый вложенный цикл <tex>while </tex> всякий раз выполняет не более <tex>2p - 2</tex> итераций. Вспоминая, что всего выводится <tex>n</tex> символов, получаем, что для вывода <tex>n</tex> символов требуется не более <tex>2n - 2</tex> итераций первого вложенного <tex>while</tex>. Следовательно, алгоритм Дюваля выполняется за <tex>O(n)</tex>.

Легко оценить и число сравнений символов, выполняемых алгоритмом Дюваля. Поскольку каждая итерация первого вложенного цикла <tex>while </tex> производит два сравнения символов, а также одно сравнение производится после последней итерации цикла, то общее число сравнений символов не превосходит <tex>4n - 3</tex>.

Анонимный участник

95.55.166.101

Изменения

Декомпозиция Линдона

Навигация

Персональные инструменты

Пространства имён

Варианты

Просмотры

Ещё

Поиск

Навигация

Инструменты