Алгоритм Карккайнена-Сандерса — различия между версиями

Материал из Викиконспекты
Перейти к: навигация, поиск
(Алгоритм skew)
(Шаг 1)
Строка 77: Строка 77:
  
 
=== Шаг 1 ===
 
=== Шаг 1 ===
На этом шаге строится суффиксные массивы <tex> A_{S_1} </tex> и <tex> A{S_2} </tex> для множества суффиксов <tex> \{ S[i..n-1] | i \mod 3 \ne 0 \} </tex>.
+
На этом шаге строится суффиксный массив <tex> A_{S_{12}} </tex> для множества суффиксов <tex> \{ S[i..n-1] | i \mod 3 \ne 0 \} </tex>.
 
# Получим строку <tex> S' </tex> аналогично предыдущему алгоритму:
 
# Получим строку <tex> S' </tex> аналогично предыдущему алгоритму:
 
#* Сделаем список, состоящий из троек <tex> S[i..i+2]; i \mod 3 \ne 0 </tex>, причем примем <tex> S[n-2..n] = S[n-2..n-1]\$ </tex>, а <tex> S[n-1..n+1] = S[n-1]\$\$ </tex>.
 
#* Сделаем список, состоящий из троек <tex> S[i..i+2]; i \mod 3 \ne 0 </tex>, причем примем <tex> S[n-2..n] = S[n-2..n-1]\$ </tex>, а <tex> S[n-1..n+1] = S[n-1]\$\$ </tex>.
 
#* Отсортируем его за линейное время цифровой сортировкой и получим новый алфавит <tex> \Sigma' </tex>.
 
#* Отсортируем его за линейное время цифровой сортировкой и получим новый алфавит <tex> \Sigma' </tex>.
#* Перекодируем строку <tex> S </tex> в строку <tex> S' </tex> в алфавите <tex> \Sigma' </tex> следущим образом: <tex> S' = [ \Sigma'(s[i..i+2]) | i \mod 3 == 1 ] + [ \Sigma'(s[i..i+2]) | i \mod 3 == 2 ] </tex>. Как можно заметить, длиной строки <tex> S' </tex> будет <tex> n' = \frac23 n </tex>. Суффиксу <tex> S[i..n-1] </tex> в старом алфавите, где <tex> i \mod 3 == 1 </tex>, в новом алфавите будет соответствовать строка <tex> S'[\frac{i-1}{3}..\frac{n}{3} - 1] </tex>, а если <tex> i \mod 3 == 2 </tex>, то строка <tex> S'[\frac{n}{3} + \frac{i-2}{3}..\frac{2n}{3} - 1] </tex>.
+
#* Перекодируем строку <tex> S </tex> в строку <tex> S' </tex> длиной <tex> \frac23 n </tex> в алфавите <tex> \Sigma' </tex> следущим образом: <tex> S' = [ \Sigma'(s[i..i+2]) | i \mod 3 == 1 ] + [ \Sigma'(s[i..i+2]) | i \mod 3 == 2 ] </tex>. Суффиксу <tex> S[i..n-1] </tex> в старом алфавите, где <tex> i \mod 3 == 1 </tex>, в новом алфавите будет соответствовать строка <tex> S'[\frac{i-1}{3}..\frac{n}{3} - 1] </tex>, а если <tex> i \mod 3 == 2 </tex>, то строка <tex> S'[\frac{n}{3} + \frac{i-2}{3}..\frac{2n}{3} - 1] </tex>.
 
# Вызовем алгоритм рекурсивно для строки <tex> S' </tex>, получив суффиксный массив <tex> A_{S'} </tex>.
 
# Вызовем алгоритм рекурсивно для строки <tex> S' </tex>, получив суффиксный массив <tex> A_{S'} </tex>.
# Пройдем по массиву <tex> A_{S'} </tex>. Если <tex> A_{S'}[i] < \frac{n}{3} </tex>, то этот суффикс соответствует позиции <tex> j </tex>, где <tex> j \mod 3 == 1 </tex>, тогда добавим в массив <tex> A_{S_1} </tex> значение <tex> 3A_{S'}[i] + 1 </tex>. Если же <tex> A_{S'}[i] \ge \frac{n}{3} </tex>, то этот суффикс соответствует позиции <tex> j </tex>, где <tex> j \mod 3 == 2 </tex>, тогда добавим в массив <tex> A_{S_2} </tex> значение <tex> 3(A_{S'}[i] - \frac{n}{3}) + 2 </tex>. Псевдокод этого шага:
+
# Пройдем по массиву <tex> A_{S'} </tex>. Если <tex> A_{S'}[i] < \frac{n}{3} </tex>, то этот суффикс соответствует позиции <tex> j = 3A_{S'}[i] + 1 </tex> в строке <tex> S </tex>, если же <tex> A_{S'}[i] \ge \frac{n}{3} </tex>, то этот суффикс соответствует позиции <tex> j = 3(A_{S'}[i] - \frac{n}{3}) + 2 </tex> в строке <tex> S </tex>. Псевдокод получения <tex> A_{S_{12}} </tex>:
<tex> A_{S_1} </tex> = []
+
  <tex> A_{S_{12}} </tex> = []
  <tex> A_{S_2} </tex> = []
+
  for i = 0..<tex>A_{S'}</tex>.length - 1:
  for i = 0..<tex>A_{S'}</tex>.length:
 
 
     if <tex>A_{S'}</tex>[i] < n / 3:
 
     if <tex>A_{S'}</tex>[i] < n / 3:
         <tex>A_{S_1}</tex>.add(3 * <tex>A_{S'}</tex>[i] + 1)
+
         <tex>A_{S_{12}}</tex>.add(3 * <tex>A_{S'}</tex>[i] + 1)
 
     else:
 
     else:
         <tex>A_{S_2}</tex>.add(3 * (<tex>A_{S'}</tex>[i] - n / 3) + 2)
+
         <tex>A_{S_{12}}</tex>.add(3 * (<tex>A_{S'}</tex>[i] - n / 3) + 2)
 +
 
 
=== Шаг 2 ===
 
=== Шаг 2 ===
 
ололо
 
ололо

Версия 21:22, 29 марта 2012

Алгоритм Каркайнена-Сандерса (Karkkainen, Sanders) — алгоритм построения суффиксного массива за линейное время.


Определение:
Четным суффиксом назовем суффикс, начинающийся в четной позиции.
Нечетным суффиксом — суффикс, начинающийся в нечетной позиции.


Базовая идея

Алгоритм базируется на алгоритме Фараха[1] построения суффиксного дерева за линейное время:

  1. Строим суффиксное дерево для четных суффиксов рекурсивно сведя задачу к построению суффиксного дерева для строки половинной длины.
  2. Строим суффиксное дерево для нечетных суффиксов за линейное время, используя результат для четных позиций.
  3. Сливаем суффиксные деревья за линейное время.

Получили асимптотическое уравнение [math] T(n) = T(\frac{n}{2}) + O(n) [/math], решением которого является [math] T(n) = O(n) [/math].

Алгоритм

Для упрощения алгоритма вначале дополним нашу строку до четной длины (например, добавлением $ в конец). На шаге сливания мы сможем избавиться от него.

Шаг 1

На первом шаге мы строим суффиксный массив [math] A_{S_e} [/math] для суффиксов строки [math] S [/math], начинающихся в четных позициях.

  1. Отобразим исходную строку [math] S [/math] длины [math] n [/math] в строку [math] S' [/math] длины [math] \frac{n}{2} [/math] следующим образом:
    • Сделаем список, состоящий из пар символов вида [math] S[2i]S[2i + 1] [/math], где [math] i \in [0; n / 2) [/math].
    • Отсортируем его цифровой сортировкой за линейное время и получим новый алфавит [math] \Sigma' [/math].
    • Перекодируем строку [math] S [/math] в алфавит [math] \Sigma' [/math], получив строку [math] S' [/math] половинной длины.
  2. Рекурсивно построим суффиксный массив [math] A_{S'} [/math].
  3. Построим суффиксный массив [math] A_{S_e} [/math]. Очевидно, [math] A_{S_e}[i] = 2 A_{S'}[i] [/math], так отношение упорядоченности любых двух строк в старом алфавите [math] \Sigma [/math] эквивалентно отношению упорядоченности в новом алфавите [math] \Sigma' [/math] по его построению.

Шаг 2

На этом шаге мы за линейное время получим суффиксный массив [math] A_{S_o} [/math] для нечетных суффиксов, используя уже построенный [math] A_{S_e} [/math].

Заметим, что сортировка множества нечетных суффиксов [math] \{ S[i..n] | i \mod 2 == 1 \} [/math] аналогична сортировке множества пар [math] \{ (S[i], S[i+1..n]) | i \mod 2 == 1 \} [/math]. Однако [math] S[i+1..n] [/math] — четный суффикс, и его относительную позицию мы уже узнали на шаге 1.

Таким образом, чтобы отсортировать эти пары за линейное время, сначала сразу выпишем их в порядке возрастания второго элемента пары (то есть в порядке вхождения в массив [math] A_{S_e} [/math]), а потом отсортируем устойчивой сортировкой подсчетом по первым элементам. Так была потребована четность длины строки, последним суффиксом будет нечетный, ему будет соответствовать пара [math] (S[n-1], n) [/math]. Псевдокод этого шага:

M = []
M.add(Pair(S[n-1], n))
for i = 0..n/2 - 1:
    if [math] A_{S_e}[i] [/math] == 0: //перед первым положительным суффиксом ничего не может стоять, поэтому пропускаем его
        continue 
    else:
        M.add(Pair(S[[math] A_{S_e}[i] [/math]-1], [math] A_{S_e}[i][/math]))

Заметим, что массив [math] M [/math] явно не отсортирован по вторым элементам и хранит не суффиксы, а их позиции в строке [math] S [/math], но главное — что он отсортирован по возрастанию соответствующих этим позициям четным суффиксам. После устойчивой сортировки массива [math] M [/math] подсчетом по первому элементу легко восстановить массив [math] A_{S_o} [/math]:

[math] A_{S_o} [/math] = []
for i = 0..n/2 - 1:
   [math] A_{S_o} [/math].add(M[i].second - 1)


Получили, что весь второй шаг требует [math] O(n) [/math] времени.

Шаг 3

Для суффиксного дерева третий шаг алгоритма опирается на специфические особенности суффиксных деревьев, которые не присущи суффиксным массивам. В случае суффиксного массива слияние становится очень сложным [2]. Однако простой модификацией алгоритма можно значительно упростить его.

Пример

Покажем первые два шага агоритма для строки abaaab.

Во-первых, добавим защитный символ $, получив строку abaaab$. Во-вторых, дополним ее до четной длины, получив abaaab$$.

Шаг 1

  1. В новом алфавите [math] \Sigma' [/math] будет три элемента — ab, aa, $$. Они получат номера 2, 1 и 0 соответственно.
  2. Сжатой строкой [math] S' [/math] будет 2120.
  3. После рекурсивного вызова получим, что [math] A_{S'} [/math] = [3, 1, 2, 0], и [math] A_{S_e} [/math] = [6, 2, 4, 0].

Шаг 2

  1. Обойдя массив [math] A_{S_e} [/math], получим M = [(b, 6), (b, 2), (a, 4), ($, 8)].
  2. После сортировки подсчетом по первому элементу, получим M = [($, 8), (a, 4), (b, 6), (b, 2)].
  3. Восстановив массив [math] A_{S_o} [/math], получаем [7, 3, 5, 1], что действительно является суффиксным массивом для нечетных суффиксов.

Алгоритм skew

Изменим изначальный алгоритм следующим образом:

  1. Построим суффиксный массив для суффиксов, соответствующих не кратным трем позициям. Рекурсивно сведем это к построению суффиксного массива для строки длиной в две трети исходной.
  2. Построим суффиксный массив для суффиксов, соответствующих кратных трем позициям, используя результат первого шага за линейное время.
  3. Сливаем эти суффиксные массивы в один за линейное время.

Получили асимптотическое уравнение [math] T(n) = T(\frac23 n) + O(n) [/math], решением которого также является [math] T(n) = O(n) [/math] (это видно из того, что сумма геометрической прогрессии с основанием [math] \frac23 [/math] равна [math] 3n [/math]).

Шаг 1

На этом шаге строится суффиксный массив [math] A_{S_{12}} [/math] для множества суффиксов [math] \{ S[i..n-1] | i \mod 3 \ne 0 \} [/math].

  1. Получим строку [math] S' [/math] аналогично предыдущему алгоритму:
    • Сделаем список, состоящий из троек [math] S[i..i+2]; i \mod 3 \ne 0 [/math], причем примем [math] S[n-2..n] = S[n-2..n-1]\$ [/math], а [math] S[n-1..n+1] = S[n-1]\$\$ [/math].
    • Отсортируем его за линейное время цифровой сортировкой и получим новый алфавит [math] \Sigma' [/math].
    • Перекодируем строку [math] S [/math] в строку [math] S' [/math] длиной [math] \frac23 n [/math] в алфавите [math] \Sigma' [/math] следущим образом: [math] S' = [ \Sigma'(s[i..i+2]) | i \mod 3 == 1 ] + [ \Sigma'(s[i..i+2]) | i \mod 3 == 2 ] [/math]. Суффиксу [math] S[i..n-1] [/math] в старом алфавите, где [math] i \mod 3 == 1 [/math], в новом алфавите будет соответствовать строка [math] S'[\frac{i-1}{3}..\frac{n}{3} - 1] [/math], а если [math] i \mod 3 == 2 [/math], то строка [math] S'[\frac{n}{3} + \frac{i-2}{3}..\frac{2n}{3} - 1] [/math].
  2. Вызовем алгоритм рекурсивно для строки [math] S' [/math], получив суффиксный массив [math] A_{S'} [/math].
  3. Пройдем по массиву [math] A_{S'} [/math]. Если [math] A_{S'}[i] \lt \frac{n}{3} [/math], то этот суффикс соответствует позиции [math] j = 3A_{S'}[i] + 1 [/math] в строке [math] S [/math], если же [math] A_{S'}[i] \ge \frac{n}{3} [/math], то этот суффикс соответствует позиции [math] j = 3(A_{S'}[i] - \frac{n}{3}) + 2 [/math] в строке [math] S [/math]. Псевдокод получения [math] A_{S_{12}} [/math]:
[math] A_{S_{12}} [/math] = []
for i = 0..[math]A_{S'}[/math].length - 1:
   if [math]A_{S'}[/math][i] < n / 3:
       [math]A_{S_{12}}[/math].add(3 * [math]A_{S'}[/math][i] + 1)
   else:
       [math]A_{S_{12}}[/math].add(3 * ([math]A_{S'}[/math][i] - n / 3) + 2)

Шаг 2

ололо

Ссылки

  1. M. Farach. Optimal suffix tree construction with large alphabets. http://www.cs.rutgers.edu/~farach/pubs/FarFerrMuthu00.pdf
  2. D. K. Kim, J. S. Sim, H. Park, and K. Park. Linear-time construction of suffix arrays. http://www.springerlink.com/content/568156021q45r320/