Изменения

← Предыдущая правка

Алгоритм Карккайнена-Сандерса

8912 байт добавлено, 19:03, 4 сентября 2022

м

rollbackEdits.php mass rollback

'''Алгоритм ~~Каркайнена~~Карккайнена-Сандерса ''' (~~Karkkainen~~Kärkkäinen, Sanders) — алгоритм построения [[суффиксный массив | суффиксного массива]] за линейное время.

~~== Базовая идея ==~~Алгоритм базируется на алгоритме Фараха<ref>M. Farach. Optimal suffix tree construction with large alphabets. http://www.cs.rutgers.edu/~farach/pubs/FarFerrMuthu00.pdf </ref> построения суффиксного дерева за линейное время:# Строим суффиксное дерево для четных суффиксов рекурсивно сведя задачу к построению суффиксного дерева для строки половинной длины.~~# Строим суффиксное дерево для нечетных суффиксов за линейное время, используя результат для четных позиций.# Сливаем суффиксные деревья за линейное время.~~__TOC__

~~Получили асимптотическое уравнение~~ == Используемые обозначения ==* В данном конспекте используется 0-индексация.* <tex>S[i..j] </tex> — подстрока строки <tex> S </tex> с <tex>i</tex>-го по <tex>j</tex>-й символы включительно.* Пусть длина строки <tex> S </tex> равна <tex> T(n~~) = T(~~</tex>. Обозначим <tex> S^*[i..j] </tex>, где <tex> j \~~frac{~~geqslant n~~}{2}) + O(~~</tex> как строку <tex> S[i..n) -1] </tex>, ~~решением которого является~~ дополненную защитными символами <tex> \$ </tex> до длины <tex> ~~T(n) = O(~~n) </tex>.

== Алгоритм «разделяй и властвуй» ==

{{Определение

|definition=

}}

# Строим суффиксный массив для нечетных суффиксов, рекурсивно сведя задачу к построению суффиксного массива для строки половинной длины.# Строим суффиксный массив для четных суффиксов за линейное время, используя результат первого шага.# Сливаем суффиксные массивы за линейное время. Получили асимптотическое уравнение <tex> T(n) = T\left( \dfrac{n}{2}\right) + O(n) </tex>, решением которого является <tex> T(n) = O(n) </tex>. Для упрощения алгоритма вначале дополним нашу строку до четной длины (например, добавлением <tex>\$ </tex> в конец). На шаге слияния мы сможем избавиться от него. =====База рекурсии== ~~Шаг 1~~ ===~~На первом шаге мы строим суффиксный массив~~ Если длина текущей строки <tex> ~~A_{S_o}~~ S </tex> равна двум, надо выполнить обычное сравнение суффиксов. =====Суффиксный массив для нечетных суффиксов ~~строки <tex> S </tex>.~~=====

# Отобразим исходную строку <tex> S ^* </tex> длины <tex> n </tex> в строку <tex> S' </tex> длины <tex> \~~frac~~dfrac{n}{2} </tex> следующим образом:#* Сделаем список, состоящий из пар символов вида <tex> S^*[i..i + 1] </tex>, где <tex> i \~~mod~~ bmod 2 =~~= 1 </tex>, причем обозначим <tex> S[n-1..n] </tex> как <tex> S[n-~~1~~]\$~~</tex>.

#* Отсортируем его цифровой сортировкой за линейное время и получим новый алфавит <tex> \Sigma' </tex>.

#* Перекодируем строку <tex> S ^*[1..n] </tex> в алфавит <tex> \Sigma' </tex>, получив строку <tex> S' </tex> половинной длины.

# Рекурсивно построим суффиксный массив <tex> A_{S'} </tex>.

# Построим суффиксный массив <tex> A_{S_o} </tex>. Очевидно, <tex> A_{S_o}[i] = 2 A_{S'}[i] + 1 </tex>, так отношение упорядоченности любых двух строк в старом алфавите <tex> \Sigma </tex> эквивалентно отношению упорядоченности в новом алфавите <tex> \Sigma' </tex> по его построению.

=== ~~Шаг 2~~ ==Суффиксный массив для четных суффиксов=====

На этом шаге мы за линейное время получим суффиксный массив <tex> A_{S_e} </tex> для четных суффиксов, используя уже построенный <tex> A_{S_o} </tex>.

Заметим, что сортировка множества четных суффиксов <tex> \{ S^*[i..n] | \mid i \~~mod~~ bmod 2 == 0 \} </tex> аналогична сортировке множества пар <tex> \{ (S^*[i], S^*[i+1..n]) | \mid i \~~mod~~ bmod 2 == 0 \} </tex>. Однако <tex> S^*[i+1..n] </tex> — нечетный суффикс, и его относительную позицию мы уже узнали на шаге 1.

Таким образом, чтобы отсортировать эти пары за линейное время, сначала сразу выпишем их в порядке возрастания второго элемента пары (то есть в порядке вхождения в массив <tex> A_{S_o} </tex>), а потом отсортируем устойчивой сортировкой подсчетом по первым элементам. ~~Псевдокод~~ После этого ~~шага~~легко можно восстановить массив <tex> A_{S_e} </tex>:

M = []

'''for ''' i = 0..'''to''' n/2 - 1:

M.add(Pair(S[<tex> A_{S_o}</tex>[i] - 1], <tex> A_{S_o}</tex>[i]))

Заметим, что массив <tex> M </tex> явно не отсортирован по вторым элементам и хранит не суффиксы, а их позиции в строке <tex> S </tex>, но главное — что он отсортирован по возрастанию соответствующих этим позициям нечетным суффиксам. После устойчивой сортировки массива <tex> M </tex> подсчетом по первому элементу легко восстановить массив <tex> A_{S_e} </tex>: ~~stable_sort~~quick_stable_sort(M)

<tex> A_{S_e} </tex> = []

'''for ''' i = 0..'''to''' n/2 - 1:

<tex> A_{S_e} </tex>.add(M[i].second - 1)

Заметим, что массив <tex> M </tex> перед сортировкой подсчетом не был явно отсортирован по вторым элементам, и хранил не суффиксы, а их позиции в строке <tex> S </tex>, но важно, что он был отсортирован по возрастанию соответствующих этим позициям нечетных суффиксов.

Получили, что весь второй шаг требует <tex> O(n) </tex> времени.

=== ~~Шаг 3~~ ==Слияние суффиксных массивов=====Для суффиксного дерева третий шаг алгоритма опирается на специфические особенности суффиксных деревьев, которые не присущи суффиксным массивам<ref>M. Farach. Optimal suffix tree construction with large alphabets. http://www.cs.rutgers.edu/~farach/pubs/FarFerrMuthu00.pdf </ref> . В случае [[Суффиксный массив|суффиксного массива ]] слияние становится очень сложным , но все же оно было реализовано в алгоритме Ким-Сим-Парк-Парка<ref> D. K. Kim, J. S. Sim, H. Park, and K. Park. Linear-time construction of suffix arrays. http://www.springerlink.com/content/568156021q45r320/</ref>. Однако простой модификацией алгоритма можно значительно упростить его.

=== Пример ===

Покажем первые два шага агоритма для строки '''~~bbaaabab~~ababbbaa'''.

Во-первых, ~~добавим~~ добавив защитный символ '''$''', получив строку '''~~bbaaabab~~ababbbaa$'''(для этого алгоритма он не требуется, но может понадобиться в применениях суффиксного массива). Во-вторых, дополним ее до четной длины, получив '''~~bbaaabab~~ababbbaa$$'''.

==== ~~Шаг 1~~ =Суффиксный массив для нечетных суффиксов=====# В новом алфавите <tex> \Sigma' </tex> будет четыре элемента — '''ba''', '''aabb''', '''ba$''', '''$$'''. После сортировки они получат номера 2, 3, 1~~, 2~~ и 0 соответственно.# Переводим строку <tex>S^*[1..n]</tex> = '''babbbaa$$$''' в новый алфавит. Сжатой строкой <tex> S' </tex> будет '''~~31320~~23210'''.# После рекурсивного вызова получим, что <tex> A_{S'} </tex> = [4, 13, 32, 0, 21], и <tex> A_{~~S_e~~S_o} </tex> = [9, 37, 75, 1, 53].

==== ~~Шаг 2~~ =Суффиксный массив для четных суффиксов=====# Обойдя массив <tex> A_{S_o} </tex>, получим <tex> M </tex> = [(~~'''~~<tex>\$~~'''~~</tex>, 9), (~~'''~~<tex>a~~'''~~</tex>, 37), (~~'''a'''~~<tex>b</tex>, 75), (~~'''b'''~~<tex>a</tex>, 1), (~~'''~~<tex>a~~'''~~</tex>, 53)].# После сортировки подсчетом по первому элементу, получим <tex> M </tex>= [(~~'''~~<tex>\$~~'''~~</tex>, 9), (~~'''~~<tex>a~~'''~~</tex>, 37), (~~'''~~<tex>a~~'''~~</tex>, 71), (~~'''~~<tex>a~~'''~~</tex>, 53), (~~'''~~<tex>b~~'''~~</tex>, 15)].# Восстановив массив <tex> A_{S_e} </tex>, получаем [8, 6, 0, 2~~, 6~~, 4~~, 0~~], что действительно является суффиксным массивом для четных суффиксов.

=====Слияние суффиксных массивов=====Если бы мы умели сливать <tex> A_{S_o} </tex> и <tex> A_{S_e} </tex> за линейное время, получили бы: {| style="background-color:#CCC;margin:0.5px"!style="background-color:#EEE"| №!style="background-color:#EEE"| Подстрока|-|style="background-color:#FFF;padding:2px 30px"| <tex> 9 </tex>|style="background-color:#FFF;padding:2px 30px"| <tex> \$ </tex>|-|style="background-color:#FFF;padding:2px 30px"| <tex> 8 </tex>|style="background-color:#FFF;padding:2px 30px"| <tex> \$\$ </tex>|-|style="background-color:#FFF;padding:2px 30px"| <tex> 7 </tex>|style="background-color:#FFF;padding:2px 30px"| <tex> a\$\$ </tex>|-|style="background-color:#FFF;padding:2px 30px"| <tex> 6 </tex>|style="background-color:#FFF;padding:2px 30px"| <tex> aa\$\$ </tex>|-|style="background-color:#FFF;padding:2px 30px"| <tex> 0 </tex>|style="background-color:#FFF;padding:2px 30px"| <tex> ababbbaa\$\$ </tex>|-|style="background-color:#FFF;padding:2px 30px"| <tex> 2 </tex>|style="background-color:#FFF;padding:2px 30px"| <tex> abbbaa\$\$ </tex>|-|style="background-color:#FFF;padding:2px 30px"| <tex> 5 </tex>|style="background-color:#FFF;padding:2px 30px"| <tex> baa\$\$ </tex>|-|style="background-color:#FFF;padding:2px 30px"| <tex> 1 </tex>|style="background-color:#FFF;padding:2px 30px"| <tex> babbbaa\$\$ </tex>|-|style="background-color:#FFF;padding:2px 30px"| <tex> 4 </tex>|style="background-color:#FFF;padding:2px 30px"| <tex> bbaa\$\$ </tex>|-|style="background-color:#FFF;padding:2px 30px"| <tex> 3 </tex>|style="background-color:#FFF;padding:2px 30px"| <tex> bbbaa\$\$ </tex>|} Как и было сказано вначале, избавиться от лишних '''$''' легко, так как суффиксы, им соответствующие, будут первыми в суффиксном массиве (в данном случае достаточно выбросить "9" из суффиксного массива). == Алгоритм ~~Каркайнена~~Карккайнена-Сандерса ==

Изменим изначальный алгоритм следующим образом:

# Построим суффиксный массив для суффиксов, соответствующих позициям, не кратным трем ~~позициям~~. Рекурсивно сведем это к построению суффиксного массива для строки длиной в две трети исходной.# Построим суффиксный массив для суффиксов, соответствующих кратным трем позициям, используя результат первого шага , за линейное время.# ~~Сливаем~~ Сольем эти суффиксные массивы в один за линейное время. Получили асимптотическое уравнение <tex> T(n) = T\left(\dfrac23 n\right) + O(n) </tex>, решением которого также является <tex> T(n) = O(n) </tex> (это видно из того, что сумма геометрической прогрессии с основанием <tex> \dfrac23 </tex> равна <tex> 3 </tex>).

~~Получили асимптотическое уравнение~~ Аналогично первой версии алгоритма, дополним строку <tex> ~~T(n) = T(\frac23 n) + O(n)~~ S </tex>до длины, ~~решением которого также является <tex> T(n) = O(n) </tex> (это видно из того~~кратной трем, ~~что сумма геометрической прогрессии с основанием~~ защитными символами <tex> \~~frac23~~ $ </tex> ~~равна~~ и получим <tex> 3n S^*</tex>).

~~Аналогично первой версии~~ * '''База рекурсии'''Для этого алгоритмаминимальной базой рекурсии будет строка длиной 4, ~~дополним строку <tex> S </tex>~~ так как она дополняется до длины6, после чего вновь следует рекурсивный вызов строки длиной 4, и, если бы база была меньше 4, ~~кратной трем~~алгоритм вошел бы в бесконечную рекурсию. На этом этапе также можно применить обычную сортировку суффиксов, ~~защитными символами~~ так как это потребует <tex> \$ O(1) </tex>действий.

~~=== Шаг 1 ===~~* '''Суффиксный массив для позиций не кратных 3'''На этом шаге строится суффиксный массив <tex> A_{S_{12}} </tex> для множества суффиксов <tex> \{ S^*[i..n-1] | \mid i \~~mod~~ bmod 3 \ne 0 \} </tex>.

# Получим строку <tex> S' </tex> аналогично предыдущему алгоритму:

#* Сделаем список, состоящий из троек <tex> S^*[i..i+2]</tex> , где <tex> i \~~mod~~ bmod 3 \ne 0 ~~</tex>, причем примем <tex> S[n-2..n] = S[n-2..n-1]\$ </tex>, а <tex> S[n-1..n+1] = S[n-1]\$\$~~ </tex>.

#* Отсортируем его за линейное время цифровой сортировкой и получим новый алфавит <tex> \Sigma' </tex>.

#* Перекодируем строку <tex> S ^*[1..n]S^*[2..n+1] </tex> в строку <tex> S' </tex> длиной <tex> \~~frac23~~ dfrac23 n </tex> в алфавите <tex> \Sigma' ~~</tex> следущим образом: <tex> S' = [ \Sigma'(s[i..i+2]) | i \mod 3 == 1 ] + [ \Sigma'(s[i..i+2]) | i \mod 3 == 2 ]~~ </tex>. ~~Суффиксу~~ Тогда суффиксу <tex> S^*[i..n-1] </tex> в старом алфавите, где <tex> i \~~mod~~ bmod 3 == 1 </tex>, в новом алфавите будет соответствовать строка <tex> S'\left[\~~frac~~dfrac{i-1}{3}..\~~frac~~dfrac{n}{3} - 1\right] </tex>, а если <tex> i \~~mod~~ bmod 3 == 2 </tex>, то строка <tex> S'\left[\~~frac~~dfrac{n}{3} + \~~frac~~dfrac{i-2}{3}..\~~frac~~dfrac{2n}{3} - 1\right] </tex>.

# Вызовем алгоритм рекурсивно для строки <tex> S' </tex>, получив суффиксный массив <tex> A_{S'} </tex>.

# Пройдем по массиву <tex> A_{S'} </tex>. Если <tex> A_{S'}[i] < \~~frac~~dfrac{n}{3} </tex>, то этот суффикс соответствует позиции <tex> j = 3A_{S'}[i] + 1 </tex> в строке <tex> S </tex>, если же <tex> A_{S'}[i] \ge geqslant \~~frac~~dfrac{n}{3} </tex>, то этот суффикс соответствует позиции <tex> j = 3\left(A_{S'}[i] - \~~frac~~dfrac{n}{3}\right) + 2 </tex> в строке <tex> S ^* </tex>. Псевдокод получения <tex> A_{S_{12}} </tex>:

<tex> A_{S_{12}} </tex> = []

'''for ''' i = 0..'''to''' <tex>A_{S'}</tex>.length - 1: '''if ''' <tex>A_{S'}</tex>[i] < n / 3:

<tex>A_{S_{12}}</tex>.add(3 * <tex>A_{S'}</tex>[i] + 1)

'''else''': <tex>A_{S_{12}}</tex>.add(3 * (<tex>A_{S'}</tex>[i] - n / 3) + 2)

~~=== Шаг 2 ===~~* '''Суффиксный массив для позиций кратных 3'''Этот шаг также аналогичен первой версии алгоритма. Сортировка множества <tex> \{ S^*[i..n-1] | \mid i \~~mod~~ bmod 3 == 0 \} </tex> аналогична сортировке пар <tex> \{ (S^*[i], S^*[i+1..n-1]) | \mid i \~~mod~~ bmod 3 == 0 \} </tex>, где <tex> S^*[i+1..n-1] </tex> — суффиксы в позициях, равных 1 по модулю 3, относительный порядок которых уже известен. Выпишем эти пары в порядке вхождения их в <tex> A_{S_{12}} </tex> и отсортируем по первому элементу устойчивой сортировкой подсчетом, получив суффиксный массив <tex> A_{S_0} </tex>. Псевдокод этого шага:

<tex>A_{S_0}</tex> = []

M = []

'''for ''' i = 0..'''to''' 2n/3 - 1: '''if ''' <tex> A_{S_{12}}</tex>[i] % 3 == 1: M.add(Pair(S*[<tex>A_{S_{12}}</tex>[i] - 1], <tex>A_{S_{12}}</tex>[i]))

stable_sort(M)

'''for ''' i = 0..'''to''' n/3 - 1:

<tex>A_{S_0}</tex>.add(M[i].second - 1)

Аналогично, второй шаг требует <tex> O(n) </tex> времени.

~~=== Шаг 3 ===~~* '''Слияние суффиксных массивов'''

На этом шаге мы должны слить суффиксные массивы <tex> A_{S_0} </tex> и <tex> A_{S_{12}} </tex>, чтобы получить суффиксный массив <tex> A_{S} </tex> для всей строки <tex> S </tex>.

Применим стандартный алгоритм слияния двух отсортированных массивов. Заметим, что явно массивы не отсортированы, но ~~сотвествующие~~ соответствующие элементам массива суффиксы — отсортированы.

Пусть на какой-то итерации слияния мы сравниваем суффиксы, соответствующие позициям <tex> i </tex>, равной 1 по модулю 3, и <tex> j </tex> (она всегда будет равна 0 по модулю 3). Это аналогично сравнению пар <tex> (S^*[i], S^*[i+1..n-1]) </tex> и <tex> (S^*[j], S^*[j+1..n-1]) </tex>. Сравнить первые элементы пар мы можем за <tex> O(1) </tex>, а относительный порядок вторых элементов пар нам уже известен, так как они ~~соотвествуют~~ соответствуют позициям, равным 2 и 1 по модулю 3 соответственно.

Аналогично, пусть на какой-то итерации слияния мы сравниваем суффиксы, соответствующие позициям <tex> i </tex>, равной 2 по модулю 3, и <tex> j </tex> (она всегда будет равна 0 по модулю 3). Тогда это аналогично сравнению троек <tex> (S^*[i], S^*[i+1], S^*[i+2..n-1]) </tex> и <tex> (S^*[j], S^*[j+1], S^*[j+2..n-1]) </tex>, что также можно делать за <tex> O(1) </tex>.

Псевдокод этой фазы:

<tex>A_{S}</tex> = []

<font color=green>// Вначале предподсчитаем за O(n) ~~обратные перестановки~~ обратную перестановку для ~~суффиксных массивов~~суффиксного массива <tex> A_{S_{12}}</tex>, то есть ~~массивы~~ массив rank ~~такие~~такой, что A<tex> A_{S_{12}}</tex>[rank[i]] = i. // Тогда мы сможем за O(1) сравнивать суффиксы по их позиции.</font> ~~rank12~~ rank = inverse(<tex>A_{S_{12}}</tex>) ~~rank0 = inverse(<tex>A_{S_0}</tex>)~~ '''while ''' i < 2 * n / 3 '''and ''' j < n / 3:

pos12 = <tex> A_{S_{12}} </tex>[i]

pos0 = <tex> A_{0} </tex>[j]

'''if ''' pos12 % 3 == 1: ''' if ''' Pair(S*[pos12], ~~rank12~~rank[pos12 + 1]) < Pair(S*[pos0], ~~rank0~~rank[pos0 + 1]):

<tex>A_{S}</tex>.add(pos12)

i++

'''else''':

<tex>A_{S}</tex>.add(pos0)

j++

'''else''': '''if ''' Triple(S*[pos12], S*[pos12 + 1], ~~rank12~~rank[pos12 + 2]) < Triple(S*[pos0], S*[pos0 + 1], ~~rank12~~rank[pos0 + 2]):

<tex>A_{S}</tex>.add(pos12)

i++

'''else''':

<tex>A_{S}</tex>.add(pos0)

j++

'''while ''' i < 2 * n / 3:

<tex>A_{S}</tex>.add(<tex> A_{S_{12}} </tex>[i])

i++

'''while ''' j < n / 3: <tex>A_{S}</tex>.add(<tex> A_{S_{0}} </tex>[j]) i j++

Таким образом, получили простой метод слияния за <tex> O(n) </tex>.

=== Пример ===

Построим суффиксный массив для строки '''abbacab'''. После добавления защитного символа и дополнения до кратной трем длины, получим '''abbacab$$'''.

~~==== Шаг~~ * '''Суффиксный массив для позиций не кратных 3'''# Тройками, соответствующими равными 1 по модулю 3 позициям, будут: '''bba''', '''cab''', '''$$$''', соответствующими равным 2 по модулю 3 — '''bac''', '''ab$''', '''$$$'''. Новый алфавит <tex> \Sigma' </tex> будет содержать элементы '''bba''', '''cab''', '''$$$''', '''bac''', '''ab$''', которые после сортировки получат номера 3, 4, 0, 2, 1 соответственно.# Строкой '''bbacab$$$bacab$$$$''' в новом алфавите <tex> \Sigma' </tex> будет <tex> S' </tex> =~~===ололо~~340210. # После рекурсивного вызова получим <tex> A_{S'} </tex> =~~=== Шаг~~ [5, 2, 4, 3, 0, 1]. Пересчитав <tex> A_{S_{12}} </tex>, получим [(5 - 3)*3 + 2, 2 * 3 + 1, (4 - 3) * 3 + 2, (3 - 3) * 3 + 2 ~~====пыщ==== Шаг~~ , 0 * 3 + 1, 1 * 3 + 1] =~~===Опа!~~[8, 7, 5, 2, 1, 4].

* '''Суффиксный массив для позиций кратных 3'''# Обойдя массив <tex> A_{S_{12}} </tex> и выбрав в нем элементы, равные 1 по модулю 3, получим массив пар <tex>M</tex> = [(<tex>b</tex>, 7), (<tex>a</tex>, 1), (<tex>a</tex>, 4)]# После устойчивой сортировки подсчетом по первому элементу, получим <tex> M </tex> = [('''a''', 1), ('''a''', 4), ('''b''', 7)]# Восстановив <tex> A_{S_0} </tex>, получаем [0, 3, 6].* '''Слияние суффиксных массивов'''Рассмотрим, к примеру, третью итерацию слияния, к этой итерации массив <tex> A_{S} </tex> = [8, 7], <tex> i </tex> = 2, <tex> j </tex> = 0, на ней мы сливаем суффиксы, соответствующие позициям 5 и 0. # Образуем тройки <tex>(S^*[5], S^*[6], S^*[7..8])</tex> и <tex>(S^*[0], S^*[1], S^*[2..8])</tex>.# После получения относительного порядка суффиксов, получим тройки ('''a''', '''b''', 1) и ('''a''', '''b''', 3). Первая тройка меньше второй, поэтому добавляем суффикс, соответствующий позиции 5 в массив <tex> A_{S} </tex>.# В конце итерации получаем <tex> A_{S} </tex> = [8, 7, 5], <tex> i </tex> = 3, <tex> j </tex> = 0.К концу слияния получим <tex> A_{S} </tex> = [8, 7, 5, 0, 3, 6, 2, 1, 4]. Так как мы добавляли один символ <tex>\$</tex> в начале алгоритма для дополнения строки до длины, кратной трем, выбросим последний суффикс из <tex> A_{S} </tex>, получим в итоге, что <tex> A_{S} </tex> = [7, 5, 0, 3, 6, 2, 1, 4]. {| style="background-color:#CCC;margin:0.5px"!style="background-color:#EEE"| №!style="background-color:#EEE"| Подстрока|-|style="background-color:#FFF;padding:2px 30px"| <tex> 8 </tex>|style="background-color:#FFF;padding:2px 30px"| <tex> \$ </tex>|-|style="background-color:#FFF;padding:2px 30px"| <tex> 7 </tex>|style="background-color:#FFF;padding:2px 30px"| <tex> \$\$ </tex>|-|style="background-color:#FFF;padding:2px 30px"| <tex> 5 </tex>|style="background-color:#FFF;padding:2px 30px"| <tex> ab\$\$ </tex>|-|style="background-color:#FFF;padding:2px 30px"| <tex> 0 </tex>|style="background-color:#FFF;padding:2px 30px"| <tex> abbacab\$\$ </tex>|-|style="background-color:#FFF;padding:2px 30px"| <tex> 3 </tex>|style="background-color:#FFF;padding:2px 30px"| <tex> acab\$\$ </tex>|-|style="background-color:#FFF;padding:2px 30px"| <tex> 6 </tex>|style="background-color:#FFF;padding:2px 30px"| <tex> b\$\$ </tex>|-|style="background-color:#FFF;padding:2px 30px"| <tex> 2 </tex>|style="background-color:#FFF;padding:2px 30px"| <tex> bacab\$\$ </tex>|-|style="background-color:#FFF;padding:2px 30px"| <tex> 1 </tex>|style= ~~Получение LCP~~ "background-color:#FFF;padding:2px 30px"| <tex> bbacab\$\$ </tex>|-|style="background-color:#FFF;padding:2px 30px"| <tex> 4 </tex>|style="background-color:#FFF;padding:2px 30px"| <tex> cab\$\$ </tex>|}Заметим, что № 9 будет выброшен, так как в начале алгоритма был добавлен один <tex> \$ </tex> к строке {|| [[Файл:Kark_sanders_stage1.png|325px|thumb| Фаза 1]]~~LCP можно получить за линейное время~~ | [[~~Алгоритм_Касаи_и_др~~Файл:Kark_sanders_stage2. png| ~~алгоритмом Касаи~~325px|thumb| Фаза 2]]| [[Файл:Kark_sanders_stage3.png|325px|thumb| Фаза 3]]|}

== Обобщение алгоритма ==

Массив LCP можно получить за линейное время [[Алгоритм_Касаи_и_др. | алгоритмом Касаи]]. На самом деле, алгоритм можно обобщить<ref name="generalisation"> Juha Kärkkäinen, Peter Sanders and Stefan Burkhardt. Linear work suffix array construction. http://www.cs.helsinki.fi/juha.karkkainen/publications/jacm05-revised.pdf </ref>, взяв на первом шаге, к примеру, суффиксы, позиции которых по модулю 7 дают 3, 5 и 6. Для этого потребуются некоторое усложнение алгоритма, например, сортировка оставшихся суффиксов в нескольких группах на шаге 2 и ~~слиянием~~ слияние нескольких групп на шаге 3, но основная идея алгоритма остается той же. Множества, которые можно выбрать, на первом шаге определяются '''разностным покрытием''' (''difference cover'').

{{Определение

|definition=

'''Разностное покрытие''' (англ. ''difference cover'') <tex> D </tex> по модулю <tex>m </tex> — множество чисел от <tex>0</tex> до <tex>m - 1 </tex> таких, что <tex> \forall i \in [0, m-1]: \exists j, k \in D: i \equiv k - j\ ~~( \mod~~ pmod m) </tex>.

}}

~~Заметим~~Например, ~~что~~ <tex> \{1, 2\} </tex> является разностным покрытием по модулю <tex> 3 </tex>, <tex> \{3, 5, 6\} </tex> является разностным покрытием по модулю <tex> 7 </tex>, а <tex> \{1\} </tex> — не является разностным покрытием по модулю <tex> 2 </tex>, поэтому этот алгоритм не применим к нему. Подробнее узнать, как вычислять разностное покрытие для заданного модуля можно также здесь. <ref name="generalisation"/>. == См. также ==* [[Суффиксный массив]] == ~~Ссылки~~ Примечания ==<references />

== Источники информации==

* [[Суффиксный массив]]

* [http://www.cs.helsinki.fi/juha.karkkainen/publications/icalp03.pdf Juha Kärkkäinen and Peter Sanders. Simple linear work suffix array construction]

Maintenance script

1632

правки

Изменения

Алгоритм Карккайнена-Сандерса

Навигация

Персональные инструменты

Пространства имён

Варианты

Просмотры

Ещё

Поиск

Навигация

Инструменты