Алгоритм Карккайнена-Сандерса — различия между версиями

Версия 22:50, 29 марта 2012

Алгоритм Каркайнена-Сандерса (Karkkainen, Sanders) — алгоритм построения суффиксного массива за линейное время.

Определение:

Четным суффиксом назовем суффикс, начинающийся в четной позиции.
Нечетным суффиксом — суффикс, начинающийся в нечетной позиции.

Базовая идея

Алгоритм базируется на алгоритме Фараха^[1] построения суффиксного дерева за линейное время:

Строим суффиксное дерево для четных суффиксов рекурсивно сведя задачу к построению суффиксного дерева для строки половинной длины.
Строим суффиксное дерево для нечетных суффиксов за линейное время, используя результат для четных позиций.
Сливаем суффиксные деревья за линейное время.

Получили асимптотическое уравнение , решением которого является [math] T(n) = O(n) [/math].

Алгоритм «разделяй и властвуй»

Для упрощения алгоритма вначале дополним нашу строку до четной длины (например, добавлением $ в конец). На шаге сливания мы сможем избавиться от него.

Шаг 1

На первом шаге мы строим суффиксный массив [math] A_{S_o} [/math] для нечетных суффиксов строки [math] S [/math].

Отобразим исходную строку [math] S [/math] длины [math] n [/math] в строку [math] S' [/math] длины [math] \frac{n}{2} [/math] следующим образом:
- Сделаем список, состоящий из пар символов вида [math] S[i..i + 1] [/math], где [math] i \mod 2 == 1 [/math], причем обозначим [math] S[n-1..n] [/math] как [math] S[n-1]\$[/math].
- Отсортируем его цифровой сортировкой за линейное время и получим новый алфавит [math] \Sigma' [/math].
- Перекодируем строку [math] S [/math] в алфавит [math] \Sigma' [/math], получив строку [math] S' [/math] половинной длины.
Рекурсивно построим суффиксный массив [math] A_{S'} [/math].
Построим суффиксный массив [math] A_{S_o} [/math]. Очевидно, , так отношение упорядоченности любых двух строк в старом алфавите [math] \Sigma [/math] эквивалентно отношению упорядоченности в новом алфавите [math] \Sigma' [/math] по его построению.

Шаг 2

На этом шаге мы за линейное время получим суффиксный массив [math] A_{S_e} [/math] для четных суффиксов, используя уже построенный [math] A_{S_o} [/math].

Заметим, что сортировка множества четных суффиксов аналогична сортировке множества пар . Однако [math] S[i+1..n] [/math] — нечетный суффикс, и его относительную позицию мы уже узнали на шаге 1.

Таким образом, чтобы отсортировать эти пары за линейное время, сначала сразу выпишем их в порядке возрастания второго элемента пары (то есть в порядке вхождения в массив [math] A_{S_o} [/math]), а потом отсортируем устойчивой сортировкой подсчетом по первым элементам. Псевдокод этого шага:

M = []
for i = 0..n/2 - 1:
    M.add(Pair(S[[math] A_{S_o}[/math][i] - 1], [math] A_{S_o}[/math][i]))

Заметим, что массив [math] M [/math] явно не отсортирован по вторым элементам и хранит не суффиксы, а их позиции в строке [math] S [/math], но главное — что он отсортирован по возрастанию соответствующих этим позициям нечетным суффиксам. После устойчивой сортировки массива [math] M [/math] подсчетом по первому элементу легко восстановить массив [math] A_{S_e} [/math]:

stable_sort(M)
[math] A_{S_e} [/math] = []
for i = 0..n/2 - 1:
   [math] A_{S_e} [/math].add(M[i].second - 1)

Получили, что весь второй шаг требует [math] O(n) [/math] времени.

Шаг 3

Для суффиксного дерева третий шаг алгоритма опирается на специфические особенности суффиксных деревьев, которые не присущи суффиксным массивам. В случае суффиксного массива слияние становится очень сложным ^[2]. Однако простой модификацией алгоритма можно значительно упростить его.

Пример

Покажем первые два шага агоритма для строки bbaaabab.

Во-первых, добавим защитный символ $, получив строку bbaaabab$. Во-вторых, дополним ее до четной длины, получив bbaaabab$$.

Шаг 1

В новом алфавите [math] \Sigma' [/math] будет четыре элемента — ba, aa, b$, $$. После сортировки они получат номера 3, 1, 2 и 0 соответственно.
Сжатой строкой [math] S' [/math] будет 31320.
После рекурсивного вызова получим, что [math] A_{S'} [/math] = [4, 1, 3, 0, 2], и [math] A_{S_e} [/math] = [9, 3, 7, 1, 5].

Шаг 2

Обойдя массив [math] A_{S_o} [/math], получим M = [($, 9), (a, 3), (a, 7), (b, 1), (a, 5)].
После сортировки подсчетом по первому элементу, получим M = [($, 9), (a, 3), (a, 7), (a, 5), (b, 1)].
Восстановив массив [math] A_{S_e} [/math], получаем [8, 2, 6, 4, 0], что действительно является суффиксным массивом для четных суффиксов.

Алгоритм Каркайнена-Сандерса

Изменим изначальный алгоритм следующим образом:

Построим суффиксный массив для суффиксов, соответствующих не кратным трем позициям. Рекурсивно сведем это к построению суффиксного массива для строки длиной в две трети исходной.
Построим суффиксный массив для суффиксов, соответствующих кратных трем позициям, используя результат первого шага за линейное время.
Сливаем эти суффиксные массивы в один за линейное время.

Получили асимптотическое уравнение , решением которого также является [math] T(n) = O(n) [/math] (это видно из того, что сумма геометрической прогрессии с основанием [math] \frac23 [/math] равна [math] 3n [/math]).

Аналогично первой версии алгоритма, дополним строку [math] S [/math] до длины, кратной трем, защитными символами [math] \$ [/math].

Шаг 1

На этом шаге строится суффиксный массив [math] A_{S_{12}} [/math] для множества суффиксов .

Получим строку [math] S' [/math] аналогично предыдущему алгоритму:
- Сделаем список, состоящий из троек , причем примем , а [math] S[n-1..n+1] = S[n-1]\$\$ [/math].
- Отсортируем его за линейное время цифровой сортировкой и получим новый алфавит [math] \Sigma' [/math].
- Перекодируем строку [math] S [/math] в строку [math] S' [/math] длиной [math] \frac23 n [/math] в алфавите [math] \Sigma' [/math] следущим образом: . Суффиксу [math] S[i..n-1] [/math] в старом алфавите, где [math] i \mod 3 == 1 [/math], в новом алфавите будет соответствовать строка , а если [math] i \mod 3 == 2 [/math], то строка .
Вызовем алгоритм рекурсивно для строки [math] S' [/math], получив суффиксный массив [math] A_{S'} [/math].
Пройдем по массиву [math] A_{S'} [/math]. Если , то этот суффикс соответствует позиции [math] j = 3A_{S'}[i] + 1 [/math] в строке [math] S [/math], если же , то этот суффикс соответствует позиции в строке [math] S [/math]. Псевдокод получения [math] A_{S_{12}} [/math]:

[math] A_{S_{12}} [/math] = []
for i = 0..[math]A_{S'}[/math].length - 1:
   if [math]A_{S'}[/math][i] < n / 3:
       [math]A_{S_{12}}[/math].add(3 * [math]A_{S'}[/math][i] + 1)
   else:
       [math]A_{S_{12}}[/math].add(3 * ([math]A_{S'}[/math][i] - n / 3) + 2)

Шаг 2

Этот шаг также аналогичен первой версии алгоритма. Сортировка множества аналогична сортировке пар , где [math] S[i+1..n-1] [/math] — суффиксы в позициях, равных 1 по модулю 3, относительный порядок которых уже известен. Выпишем эти пары в порядке вхождения их в [math] A_{S_{12}} [/math] и отсортируем по первому элементу устойчивой сортировкой подсчетом, получив суффиксный массив [math] A_{S_0} [/math]. Псевдокод этого шага:

[math]A_{S_0}[/math] = []
M = []
for i = 0..2n/3 - 1:
    if [math] A_{S_{12}}[/math][i] % 3 == 1:
        M.add(Pair(S[A_{S_{12}}</tex>[i] - 1], A_{S_{12}}</tex>[i]))
stable_sort(M)
for i = 0..n/3 - 1:
    [math]A_{S_0}[/math].add(M[i].second - 1)

Аналогично, второй шаг требует [math] O(n) [/math] времени.

Шаг 3

На этом шаге мы должны слить суффиксные массивы [math] A_{S_0} [/math] и [math] A_{S_{12}} [/math], чтобы получить суффиксный массив [math] A_{S} [/math] для всей строки [math] S [/math].

Применим стандартный алгоритм слияния двух отсортированных массивов. Заметим, что явно массивы не отсортированы, но сотвествующие элементам массива суффиксы — отсортированы.

Пусть на какой-то итерации слияния мы сравниваем суффиксы, соответствующие позициям [math] i [/math], равной 1 по модулю 3, и [math] j [/math] (она всегда будет равна 0 по модулю 3). Это аналогично сравнению пар [math] (S[i], S[i+1..n-1]) [/math] и [math] (S[j], S[j+1..n-1]) [/math]. Сравнить первые элементы пар мы можем за [math] O(1) [/math], а относительный порядок вторых элементов пар нам уже известен, так как они соотвествуют позициям, равным 2 и 1 по модулю 3 соответственно.

Аналогично, пусть на какой-то итерации слияния мы сравниваем суффиксы, соответствующие позициям [math] i [/math], равной 2 по модулю 3, и [math] j [/math] (она всегда будет равна 0 по модулю 3). Тогда это аналогично сравнению троек и , что аналогично можно делать за [math] O(1) [/math].

Псевдокод этой фазы:

[math]A_{S}[/math] = []
// Вначале предподсчитаем за O(n) обратные перестановки для суффиксных массивов, то есть массивы Order такие, что A[Order[i]] = i.
// Тогда мы сможем за O(1) сравнивать суффиксы по их позиции.
Order12 = inverse([math]A_{S_{12}}[/math]) 
Order0  = inverse([math]A_{S_0}[/math])
while i < 2 * n / 3 and j < n / 3:
    pos12 = [math] A_{S_{12}} [/math][i]
    pos0  = [math] A_{0} [/math][j]
    if pos12 % 3 == 1:
        if Pair(S[pos12], Order12[pos12 + 1]) < Pair(S[pos0], Order0[pos0 + 1]):
            [math]A_{S}[/math].add(pos12)
            i++
        else:
            [math]A_{S}[/math].add(pos0)
            j++  
    else:
        if Triple(S[pos12], S[pos12 + 1], Order12[pos12 + 2]) < Triple(S[pos0], S[pos0 + 1], Order0[pos0 + 2]):
            [math]A_{S}[/math].add(pos12)
            i++
        else:
            [math]A_{S}[/math].add(pos0)
            j++ 
while i < 2 * n / 3:
    [math]A_{S}[/math].add([math] A_{S_{12}} [/math][i])
    i++
while j < n / 3:
   [math]A_{S}[/math].add([math] A_{S_{0}} [/math][j])
   i++

Таким образом, получили простой метод сливания за [math] O(n) [/math].

Ссылки

↑ M. Farach. Optimal suffix tree construction with large alphabets. http://www.cs.rutgers.edu/~farach/pubs/FarFerrMuthu00.pdf
↑ D. K. Kim, J. S. Sim, H. Park, and K. Park. Linear-time construction of suffix arrays. http://www.springerlink.com/content/568156021q45r320/

[1] M. Farach. Optimal suffix tree construction with large alphabets. http://www.cs.rutgers.edu/~farach/pubs/FarFerrMuthu00.pdf

[2] D. K. Kim, J. S. Sim, H. Park, and K. Park. Linear-time construction of suffix arrays. http://www.springerlink.com/content/568156021q45r320/

[1]

[2]

@@ Строка 15: / Строка 15: @@
 Получили асимптотическое уравнение <tex> T(n) = T(\frac{n}{2}) + O(n) </tex>, решением которого является <tex> T(n) = O(n) </tex>.
-== Алгоритм ==
+== Алгоритм «разделяй и властвуй» ==
 Для упрощения алгоритма вначале дополним нашу строку до четной длины (например, добавлением $ в конец). На шаге сливания мы сможем избавиться от него.
 === Шаг 1 ===
-На первом шаге мы строим суффиксный массив <tex> A_{S_e} </tex> для суффиксов строки <tex> S </tex>, начинающихся в четных позициях.
+На первом шаге мы строим суффиксный массив <tex> A_{S_o} </tex> для нечетных суффиксов строки <tex> S </tex>.
 # Отобразим исходную строку <tex> S </tex> длины <tex> n </tex> в строку <tex> S' </tex> длины <tex> \frac{n}{2} </tex> следующим образом:
-#* Сделаем список, состоящий из пар символов вида <tex> S[2i]S[2i + 1] </tex>, где <tex> i \in [0; n / 2) </tex>.
+#* Сделаем список, состоящий из пар символов вида <tex> S[i..i + 1] </tex>, где <tex> i \mod 2 == 1 </tex>, причем обозначим <tex> S[n-1..n] </tex> как <tex> S[n-1]\$</tex>.
 #* Отсортируем его цифровой сортировкой за линейное время и получим новый алфавит <tex> \Sigma' </tex>.
 #* Перекодируем строку <tex> S </tex> в алфавит <tex> \Sigma' </tex>, получив строку <tex> S' </tex> половинной длины.
 # Рекурсивно построим суффиксный массив <tex> A_{S'} </tex>.
-# Построим суффиксный массив <tex> A_{S_e} </tex>. Очевидно, <tex> A_{S_e}[i] = 2 A_{S'}[i] </tex>, так отношение упорядоченности любых двух строк в старом алфавите <tex> \Sigma </tex> эквивалентно отношению упорядоченности в новом алфавите <tex> \Sigma' </tex> по его построению.
+# Построим суффиксный массив <tex> A_{S_o} </tex>. Очевидно, <tex> A_{S_o}[i] = 2 A_{S'}[i] + 1 </tex>, так отношение упорядоченности любых двух строк в старом алфавите <tex> \Sigma </tex> эквивалентно отношению упорядоченности в новом алфавите <tex> \Sigma' </tex> по его построению.
 === Шаг 2 ===
-На этом шаге мы за линейное время получим суффиксный массив <tex> A_{S_o} </tex> для нечетных суффиксов, используя уже построенный <tex> A_{S_e} </tex>.
+На этом шаге мы за линейное время получим суффиксный массив <tex> A_{S_e} </tex> для четных суффиксов, используя уже построенный <tex> A_{S_o} </tex>.
-Заметим, что сортировка множества нечетных суффиксов <tex> \{ S[i..n] | i \mod 2 == 1 \} </tex> аналогична сортировке множества пар <tex> \{ (S[i], S[i+1..n]) | i \mod 2 == 1 \} </tex>. Однако <tex> S[i+1..n] </tex> — четный суффикс, и его относительную позицию мы уже узнали на шаге 1.
+Заметим, что сортировка множества четных суффиксов <tex> \{ S[i..n] | i \mod 2 == 0 \} </tex> аналогична сортировке множества пар <tex> \{ (S[i], S[i+1..n]) | i \mod 2 == 0 \} </tex>. Однако <tex> S[i+1..n] </tex> — нечетный суффикс, и его относительную позицию мы уже узнали на шаге 1.
-Таким образом, чтобы отсортировать эти пары за линейное время, сначала сразу выпишем их в порядке возрастания второго элемента пары (то есть в порядке вхождения в массив <tex> A_{S_e} </tex>), а потом отсортируем устойчивой сортировкой подсчетом по первым элементам. Так была потребована четность длины строки, последним суффиксом будет нечетный, ему будет соответствовать пара <tex> (S[n-1], n) </tex>. Псевдокод этого шага:
+Таким образом, чтобы отсортировать эти пары за линейное время, сначала сразу выпишем их в порядке возрастания второго элемента пары (то есть в порядке вхождения в массив <tex> A_{S_o} </tex>), а потом отсортируем устойчивой сортировкой подсчетом по первым элементам. Псевдокод этого шага:
   M = []
- M.add(Pair(S[n-1], n))
   for i = 0..n/2 - 1:
-      if <tex> A_{S_e}[i] </tex> == 0: //перед первым положительным суффиксом ничего не может стоять, поэтому пропускаем его
+      M.add(Pair(S[<tex> A_{S_o}</tex>[i] - 1], <tex> A_{S_o}</tex>[i]))
-         continue
-     else:
-         M.add(Pair(S[<tex> A_{S_e}[i] </tex>-1], <tex> A_{S_e}[i]</tex>))
-Заметим, что массив <tex> M </tex> явно не отсортирован по вторым элементам и хранит не суффиксы, а их позиции в строке <tex> S </tex>, но главное — что он отсортирован по возрастанию соответствующих этим позициям четным суффиксам. После устойчивой сортировки массива <tex> M </tex> подсчетом по первому элементу легко восстановить массив <tex> A_{S_o} </tex>:
+Заметим, что массив <tex> M </tex> явно не отсортирован по вторым элементам и хранит не суффиксы, а их позиции в строке <tex> S </tex>, но главное — что он отсортирован по возрастанию соответствующих этим позициям нечетным суффиксам. После устойчивой сортировки массива <tex> M </tex> подсчетом по первому элементу легко восстановить массив <tex> A_{S_e} </tex>:
-  <tex> A_{S_o} </tex> = []
+ stable_sort(M)
+  <tex> A_{S_e} </tex> = []
   for i = 0..n/2 - 1:
-     <tex> A_{S_o} </tex>.add(M[i].second - 1)
+     <tex> A_{S_e} </tex>.add(M[i].second - 1)
@@ Строка 54: / Строка 51: @@
 === Пример ===
-Покажем первые два шага агоритма для строки '''abaaab'''.
+Покажем первые два шага агоритма для строки '''bbaaabab'''.
-Во-первых, добавим защитный символ $, получив строку '''abaaab$'''. Во-вторых, дополним ее до четной длины, получив '''abaaab$$'''.
+Во-первых, добавим защитный символ $, получив строку '''bbaaabab$'''. Во-вторых, дополним ее до четной длины, получив '''bbaaabab$$'''.
 ==== Шаг 1 ====
-# В новом алфавите <tex> \Sigma' </tex> будет три элемента — '''ab''', '''aa''', '''$$'''. Они получат номера 2, 1 и 0 соответственно.
+# В новом алфавите <tex> \Sigma' </tex> будет четыре элемента — '''ba''', '''aa''', '''b$''', '''$$'''. После сортировки они получат номера 3, 1, 2 и 0 соответственно.
-# Сжатой строкой <tex> S' </tex> будет '''2120'''.
+# Сжатой строкой <tex> S' </tex> будет '''31320'''.
-# После рекурсивного вызова получим, что <tex> A_{S'} </tex> = [3, 1, 2, 0], и <tex> A_{S_e} </tex> = [6, 2, 4, 0].
+# После рекурсивного вызова получим, что <tex> A_{S'} </tex> = [4, 1, 3, 0, 2], и <tex> A_{S_e} </tex> = [9, 3, 7, 1, 5].
 ==== Шаг 2 ====
-# Обойдя массив <tex> A_{S_e} </tex>, получим M = [('''b''', 6), ('''b''', 2), ('''a''', 4), ('''$''', 8)].
+# Обойдя массив <tex> A_{S_o} </tex>, получим M = [('''$''', 9), ('''a''', 3), ('''a''', 7), ('''b''', 1), ('''a''', 5)].
-# После сортировки подсчетом по первому элементу, получим M = [('''$''', 8), ('''a''', 4), ('''b''', 6), ('''b''', 2)].
+# После сортировки подсчетом по первому элементу, получим M = [('''$''', 9), ('''a''', 3), ('''a''', 7), ('''a''', 5), ('''b''', 1)].
-# Восстановив массив <tex> A_{S_o} </tex>, получаем [7, 3, 5, 1], что действительно является суффиксным массивом для нечетных суффиксов.
+# Восстановив массив <tex> A_{S_e} </tex>, получаем [8, 2, 6, 4, 0], что действительно является суффиксным массивом для четных суффиксов.
 == Алгоритм Каркайнена-Сандерса ==

Алгоритм Карккайнена-Сандерса — различия между версиями

Версия 22:50, 29 марта 2012

Содержание

Базовая идея

Алгоритм «разделяй и властвуй»

Шаг 1

Шаг 2

Шаг 3

Пример

Шаг 1

Шаг 2

Алгоритм Каркайнена-Сандерса

Шаг 1

Шаг 2

Шаг 3

Ссылки

Навигация

Персональные инструменты

Пространства имён

Варианты

Просмотры

Ещё

Поиск

Навигация

Инструменты