Построение суффиксного массива с помощью стандартных методов сортировки — различия между версиями

Версия 10:25, 9 июня 2012

Содержание

1 Идея построения суффиксного массива
2 Наивный алгоритм
- 2.1 Псевдокод
3 Алгоритм, использующий хеши
- 3.1 Псевдокод
4 Алгоритм, использующий префиксы циклических сдвигов
- 4.1 Псевдокод
5 Литература

Идея построения суффиксного массива

Согласно определению суффиксного массива, для его построения достаточно отсортировать все суффиксы строки. Заменим сортировку суффиксов строки [math]\alpha[/math] на сортировку циклических сдвигов строки [math]\alpha\$[/math], где символ [math]\$[/math] строго меньше любого символа из [math]\alpha[/math]. Тогда если в упорядоченных циклических сдвигах отбросить суффикс, начинающийся на [math]\$[/math], то получатся упорядоченные суффиксы исходной строки [math]\alpha[/math]. В дальнейшем положим [math]|\alpha\$| = n [/math] (заметим, что все циклические сдвиги также имеют длину [math]n[/math]), а также [math]\alpha\$ = s[/math].

Наивный алгоритм

Данный алгоритм достаточно тривиален. Отсортируем все циклические сдвиги строки [math]\alpha\$[/math], воспользовавшись любым известным методом логарифмической сортировки (например "сортировка слиянием"). Тогда сравнение любых двух циклических сдвигов будет осуществляться за [math]O(n)[/math] и суммарная сложность алгоритма составит [math]O(n^2\log(n))[/math].

Псевдокод

suf_array(s)
   suf [math]\leftarrow \{0, 1, \dots, |s|\}[/math]
   sort (suf, compare)
   ret suf

compare ([math]j_1[/math], [math]j_2[/math])
    for [math]i[/math] = 0 to [math]|s|[/math] do
        if (s[([math]j_1+i[/math]) mod [math]|s|[/math]] > s[([math]j_2+i[/math]) mod [math]|s|[/math]])
            ret 1
            if (s[([math]j_1+i[/math]) mod [math]|s|[/math]] < s[([math]j_2+i[/math]) mod [math]|s|[/math]])
            ret -1
    ret 0

Алгоритм, использующий хеши

Данный алгоритм является некоторым улучшением предыдущего. Основная цель — сократить оценку времени сравнения двух циклических сдвигов до [math]O(\log(n))[/math], тогда мы по аналогии с предыдущим алгоритмом получим оценку [math]O(n \log^2(n))[/math]. У нас есть возможность быстро сравнивать подстроки на равенство используя метод, описанный здесь.

Пусть нам необходимо сравнить два циклических сдвига [math]s[i_1..i_1-1][/math] и [math]s[i_2..i_2-1][/math]. Найдем сначала их наибольший общий префикс ([math]lcp(i_1,i_2)[/math]), для этого будем использовать двоичный поиск по длине совпадающего префикса, а проверку осуществлять с помощью посчитанных хешей префиксов.

Если оказалось, что [math]lcp(i_1,i_2) = n[/math], то строки равны. Если же [math]lcp(i_1,i_2) \lt n[/math], то символы [math]s[i_1 + lcp][/math] и [math]s[i_2+lcp][/math] точно различаются, и их сравнение позволяет сделать вывод, какой из циклических сдвигов меньше в лексикографическом порядке. Итак, двоичный поиск работает за [math]O(\log(n))[/math], остальные операции требуют константного времени, следовательно, время, необходимое на сравнение двух циклических сдвигов, оценивается как [math]O(\log(n))[/math].

Псевдокод

suf_array(s)
   suf [math]\leftarrow \{0, 1, \dots, |s|\}[/math]
   sort (suf, compare)
   ret suf

compare ([math]j_1[/math], [math]j_2[/math])
        same [math]\leftarrow[/math] lcp([math]j_1[/math], [math]j_2[/math])
        ret s[[math]j_1[/math] + same] - s[[math]j_2[/math] + same]

lcp ([math]j_1[/math], [math]j_2[/math])
   [math]l[/math] [math]\leftarrow[/math] [math]-1[/math]
   [math]r[/math] [math]\leftarrow[/math] [math]|s|+1[/math]
   while ([math]r - l \gt  1[/math])
       [math]m[/math] [math]\leftarrow[/math] [math](r + l) / 2[/math]
       if (hash[[math]j_1\dots j_1 +m[/math]] = hash[[math]j_2\dots j_2 + m[/math]])
          [math]l \leftarrow m [/math]
       else
          [math] r \leftarrow m [/math]
   ret [math]l[/math]

Алгоритм, использующий префиксы циклических сдвигов

Этот алгоритм сильно отличается от двух предыдущих и от него несложно перейти к алгоритму за [math]O(n \log(n))[/math]. Итак, основная идея: на каждом шаге будем сортировать префиксы циклических сдвигов длины . Еще одно важное дополнение: после каждой фазы каждому префиксу циклического сдвига [math]s[i..i-1][/math] будет присваиваться номер класса эквивалентности [math]c[i][/math] среди этих префиксов. Причем классы эквивалентности должны быть пронумерованы в лексикографическом порядке соответствующих представителей.

Сначала легко можно отсортировать за [math]O(n \log(n))[/math] префиксы длины [math]1[/math], то есть символы. А номера классов поставить в соответствии с порядковым номером символа в алфавите.

Рассмотрим теперь переход от префиксов длины [math]l[/math] к префиксам длины [math]2l[/math]. Научимся сравнивать два префикса длины [math]2l[/math] за [math]O(1)[/math]: Пусть даны префиксы [math]s[i..i+2l-1][/math], [math]s[j..j+2l-1][/math], сравним сначала их левые половинки, использовав значения [math]c[i], c[j][/math] с предыдущего шага, если [math]c[i]\neq c[j][/math], то префиксы соотносятся так как же, как [math]c[i][/math] и [math] c[j][/math], если [math]c[i]=c[j][/math], то переходим к сравнению [math]c[i+l][/math] и [math] c[j+l][/math]. Итак, отсортировать префиксы длины [math]2l[/math] можно за [math]O(n\log(n))[/math]. Вычислить новые [math]c[i][/math] можно просто пробежавшись в лексикографическом порядке по префиксам, и увеличивая номер соответствующего класса на [math]1[/math], если текущий префикс не совпадает с предыдущим (сравнивать с помощью старых [math]c[i], c[i+l][/math]).

После шага все циклические сдвиги будут отсортированы. Всего шагов [math]O(\log(n))[/math], каждый шаг проводится за [math]O(n \log(n))[/math], итоговая асимптотика [math]O(n \log^2(n))[/math].

Псевдокод

suf_array(s)
   suf [math]\leftarrow \{0, 1, \dots, |s|\}[/math]
   sort (suf, compare1)
   [math]c \leftarrow \{[/math]s[0], s[1], ..., s[|s| - 1][math]\}[/math]

   for [math]l[/math] = 1 to [math]2^{\lceil \log_2(n)\rceil - 1}[/math] step [math]l \leftarrow 2l[/math] do
       sort (suf, compare2)
       [math]c'[/math][suf[0]] [math]\leftarrow[/math] 0
       for [math]i[/math] =  1 to [math]|s|-1[/math] do
           [math]l_1 \leftarrow [/math] suf[[math]i - 1[/math]]
           [math]r_1 \leftarrow [/math] suf[[math]i - 1[/math]] + [math]l[/math]
           [math]l_2 \leftarrow [/math] suf[[math]i[/math]]
           [math]r_2 \leftarrow [/math] suf[[math]i[/math]] + [math]l[/math]
           if ([math]c[/math][[math]l_1[/math]] [math]\neq[/math] [math]c[/math][[math]l_2[/math]] or [math]c[/math][[math]r_1[/math]] [math]\neq[/math] [math]c[/math][[math]r_2[/math]])
               [math]c'[/math][suf[[math]i[/math]]] = [math]c'[/math][suf[[math]i - 1[/math]]] + 1
           else
               [math]c'[/math][suf[[math]i[/math]]] = [math]c'[/math][suf[[math]i - 1[/math]]]
       [math]c \leftarrow c'[/math]
   ret suf

compare1 ([math]j_1[/math], [math]j_2[/math])
        ret s[[math]j_1[/math]] - s[[math]j_2[/math]]

compare2 ([math]j_1[/math], [math]j_2[/math])
    if ([math]c[/math][[math]j_1[/math]] [math]\neq[/math] [math]c[/math][[math]j_2[/math]])
        ret [math]c[/math][[math]j_1[/math]] - [math]c[/math][[math]j_2[/math]]
    else
        ret [math]c[/math][[math]j_1 + l[/math]] - [math]c[/math][[math]j_2 + l[/math]]

Литература

Гасфилд Д. Строки, деревья и последовательности в алгоритмах: Информатика и вычислительная биология. — 2-е изд.

@@ Строка 52: / Строка 52: @@
      '''ret''' <tex>l</tex>
-== Алгоритм за <tex>O(N \log^2(N))</tex> (префиксы циклических сдвигов) ==
+== Алгоритм, использующий префиксы циклических сдвигов ==
-Этот алгоритм сильно отличается от двух предыдущих и от него несложно перейти к алгоритму за <tex>O(N \log(N))</tex>. Итак, основная идея: на каждом шаге будем сортировать префиксы циклических сдвигов длины <tex>1,2,4,..., 2^{\lceil \log_2(n)\rceil}</tex>. Еще одно важное дополнение: после каждой фазы каждому префиксу циклического сдвига <tex>s[i..i-1]</tex> будет присваиваться номер класса эквивалентности  <tex>c[i]</tex> среди этих префиксов. Причем классы эквивалентности должны быть пронумерованы в лексикографическом порядке соответствующих представителей.
+Этот алгоритм сильно отличается от двух предыдущих и от него несложно перейти к алгоритму за <tex>O(n \log(n))</tex>. Итак, основная идея: на каждом шаге будем сортировать префиксы циклических сдвигов длины <tex>1,2,4,..., 2^{\lceil \log_2(n)\rceil}</tex>. Еще одно важное дополнение: после каждой фазы каждому префиксу циклического сдвига <tex>s[i..i-1]</tex> будет присваиваться номер класса эквивалентности  <tex>c[i]</tex> среди этих префиксов. Причем классы эквивалентности должны быть пронумерованы в лексикографическом порядке соответствующих представителей.
-Сначала легко можно отсортировать за <tex>O(N \log(N))</tex> префиксы длины <tex>1</tex>, то есть символы. А номера классов поставить в соответствии с порядковым номером символа в алфавите.
+Сначала легко можно отсортировать за <tex>O(n \log(n))</tex> префиксы длины <tex>1</tex>, то есть символы. А номера классов поставить в соответствии с порядковым номером символа в алфавите.
-Рассмотрим теперь переход от префиксов длины <tex>l</tex> к префиксам длины <tex>2l</tex>. Научимся сравнивать два префикса длины <tex>2l</tex> за <tex>O(1)</tex>: Пусть даны префиксы <tex>s[i..i+2l-1]</tex>, <tex>s[j..j+2l-1]</tex>, сравним сначала их левые половинки, использовав значения <tex>c[i], c[j]</tex> с предыдущего шага, если <tex>c[i]\neq c[j]</tex>, то префиксы соотносятся так как же, как <tex>c[i]</tex> и <tex> c[j]</tex>, если <tex>c[i]=c[j]</tex>, то переходим к сравнению <tex>c[i+l]</tex> и <tex> c[j+l]</tex>. Итак, отсортировать префиксы длины <tex>2l</tex> можно за <tex>O(N\log(N))</tex>. Вычислить новые <tex>c[i]</tex> можно просто пробежавшись в лексикографическом порядке по префиксам, и увеличивая номер соответствующего класса на <tex>1</tex>, если текущий префикс не совпадает с предыдущим (сравнивать с помощью старых <tex>c[i], c[i+l]</tex>).
+Рассмотрим теперь переход от префиксов длины <tex>l</tex> к префиксам длины <tex>2l</tex>. Научимся сравнивать два префикса длины <tex>2l</tex> за <tex>O(1)</tex>: Пусть даны префиксы <tex>s[i..i+2l-1]</tex>, <tex>s[j..j+2l-1]</tex>, сравним сначала их левые половинки, использовав значения <tex>c[i], c[j]</tex> с предыдущего шага, если <tex>c[i]\neq c[j]</tex>, то префиксы соотносятся так как же, как <tex>c[i]</tex> и <tex> c[j]</tex>, если <tex>c[i]=c[j]</tex>, то переходим к сравнению <tex>c[i+l]</tex> и <tex> c[j+l]</tex>. Итак, отсортировать префиксы длины <tex>2l</tex> можно за <tex>O(n\log(n))</tex>. Вычислить новые <tex>c[i]</tex> можно просто пробежавшись в лексикографическом порядке по префиксам, и увеличивая номер соответствующего класса на <tex>1</tex>, если текущий префикс не совпадает с предыдущим (сравнивать с помощью старых <tex>c[i], c[i+l]</tex>).
-После шага <tex>l =2^{\lceil \log_2(n)\rceil} \ge N</tex> все циклические сдвиги будут отсортированы. Всего шагов <tex>O(\log(N))</tex>, каждый шаг проводится за <tex>O(N \log(N))</tex>, итоговая асимптотика <tex>O(N \log^2(N))</tex>.
+После шага <tex>l =2^{\lceil \log_2(n)\rceil} \ge n</tex> все циклические сдвиги будут отсортированы. Всего шагов <tex>O(\log(n))</tex>, каждый шаг проводится за <tex>O(n \log(n))</tex>, итоговая асимптотика <tex>O(n \log^2(n))</tex>.
 === Псевдокод ===

Построение суффиксного массива с помощью стандартных методов сортировки — различия между версиями

Версия 10:25, 9 июня 2012

Содержание

Идея построения суффиксного массива

Наивный алгоритм

Псевдокод

Алгоритм, использующий хеши

Псевдокод

Алгоритм, использующий префиксы циклических сдвигов

Псевдокод

Литература

Навигация

Персональные инструменты

Пространства имён

Варианты

Просмотры

Ещё

Поиск

Навигация

Инструменты