Построение суффиксного массива с помощью стандартных методов сортировки — различия между версиями

Текущая версия на 19:39, 4 сентября 2022

Содержание

1 Идея построения суффиксного массива
2 Наивный алгоритм
- 2.1 Псевдокод
3 Алгоритм, использующий хеши
- 3.1 Псевдокод
4 Алгоритм, использующий префиксы циклических сдвигов
- 4.1 Псевдокод
5 См. также
6 Источники информации

Идея построения суффиксного массива

Согласно определению суффиксного массива, для его построения достаточно отсортировать все суффиксы строки. Заменим сортировку суффиксов строки [math]\alpha[/math] на сортировку циклических сдвигов строки [math]\alpha\$[/math], где символ [math]\$[/math] строго меньше любого символа из [math]\alpha[/math]. Тогда если в упорядоченных циклических сдвигах отбросить суффикс, начинающийся на [math]\$[/math], то получатся упорядоченные суффиксы исходной строки [math]\alpha[/math]. В дальнейшем положим [math]|\alpha\$| = n [/math] (заметим, что все циклические сдвиги также имеют длину [math]n[/math]), а также [math]\alpha\$ = s[/math].

Наивный алгоритм

Данный алгоритм достаточно тривиален. Отсортируем все циклические сдвиги строки [math]\alpha\$[/math], воспользовавшись любым известным методом логарифмической сортировки (например "сортировка слиянием"). Тогда сравнение любых двух циклических сдвигов будет осуществляться за [math]O(n)[/math] и суммарная сложность алгоритма составит [math]O(n^2\log n)[/math].

Псевдокод

int[] sufArray(string s)
   suf = {0, 1 .. s.length}
   sort(suf, compare)
   return suf

order compare(int j1, int j2)
    for i = 0 .. s.length
        if (s[(j1 + i) mod s.length] > s[(j2 + i) mod s.length])
            return GT
        if (s[(j1 + i) mod s.length] < s[(j2 + i) mod s.length])
            return LT
    return EQ

Алгоритм, использующий хеши

Данный алгоритм является некоторым улучшением предыдущего. Основная цель — сократить оценку времени сравнения двух циклических сдвигов до [math]O(\log n)[/math], тогда мы по аналогии с предыдущим алгоритмом получим оценку [math]O(n \log^2 n)[/math]. У нас есть возможность быстро сравнивать подстроки на равенство используя метод, описанный в алгоритме Рабина-Карпа .

Пусть нам необходимо сравнить два циклических сдвига [math]s[i_1..i_1-1][/math] и [math]s[i_2..i_2-1][/math]. Найдем сначала их наибольший общий префикс ([math]lcp(i_1,i_2)[/math]), для этого будем использовать двоичный поиск по длине совпадающего префикса, а проверку осуществлять с помощью посчитанных хешей префиксов. Поскольку циклический сдвиг состоит из суффикса и префикса [math]suf + pref[/math] исходной строки, то с помощью двух хешей префиксов исходной строки можно найти хеш [math]suf[/math] или префикса [math]suf[/math]. Таким образом можно найти хеш префикса циклического сдвига.

Если оказалось, что [math]lcp(i_1,i_2) = n[/math], то строки равны. Если же [math]lcp(i_1,i_2) \lt n[/math], то символы [math]s[i_1 + lcp][/math] и [math]s[i_2+lcp][/math] точно различаются, и их сравнение позволяет сделать вывод, какой из циклических сдвигов меньше в лексикографическом порядке. Итак, двоичный поиск работает за [math]O(\log n)[/math], остальные операции требуют константного времени, следовательно, время, необходимое на сравнение двух циклических сдвигов, оценивается как [math]O(\log n)[/math].

Псевдокод

int[] sufArray(string s)
   suf = {0, 1 .. s.length}
   sort(suf, compare)
   return suf

order compare(int j1, int j2)
    same = lcp(j1, j2)
    if s[j1 + same] < s[j2 + same]
        return LT
    else if s[j1 + same] == s2[j2 + same]
        return EQ
    else
        return GT

int lcp(j1, j2)
   l = -1
   r = s.length + 1
   while r - l > 1
       m = (r + l) / 2
       if hash[j1 .. j1 + m] == hash[j2 .. j2 + m]
          l = m
       else
          r = m
   return l

Алгоритм, использующий префиксы циклических сдвигов

Этот алгоритм сильно отличается от двух предыдущих и от него несложно перейти к алгоритму за [math]O(n \log n)[/math]. Итак, основная идея: на каждом шаге будем сортировать префиксы циклических сдвигов длины . Еще одно важное дополнение: после каждой фазы каждому префиксу циклического сдвига [math]s[i..i-1][/math] будет присваиваться номер класса эквивалентности [math]c[i][/math] среди этих префиксов. Причем классы эквивалентности должны быть пронумерованы в лексикографическом порядке соответствующих представителей.

Сначала легко можно отсортировать за [math]O(n \log n)[/math] префиксы длины [math]1[/math], то есть символы. А номера классов поставить в соответствии с порядковым номером символа в алфавите.

Рассмотрим теперь переход от префиксов длины [math]l[/math] к префиксам длины [math]2l[/math]. Научимся сравнивать два префикса длины [math]2l[/math] за [math]O(1)[/math]: Пусть даны префиксы [math]s[i..i+2l-1][/math], [math]s[j..j+2l-1][/math], сравним сначала их левые половинки, использовав значения [math]c[i], c[j][/math] с предыдущего шага, если [math]c[i]\neq c[j][/math], то префиксы соотносятся так как же, как [math]c[i][/math] и [math] c[j][/math], если [math]c[i]=c[j][/math], то переходим к сравнению [math]c[i+l][/math] и [math] c[j+l][/math]. Итак, отсортировать префиксы длины [math]2l[/math] можно за [math]O(n\log n)[/math]. Вычислить новые [math]c[i][/math] можно просто пробежавшись в лексикографическом порядке по префиксам, и увеличивая номер соответствующего класса на [math]1[/math], если текущий префикс не совпадает с предыдущим (сравнивать с помощью старых [math]c[i], c[i+l][/math]).

После шага все циклические сдвиги будут отсортированы. Всего шагов [math]O(\log n)[/math], каждый шаг проводится за [math]O(n \log n)[/math], итоговая асимптотика [math]O(n \log^2 n)[/math].

Схожая идея используется и в алгоритме цифровой сортировки суффиксов циклической строки, который имеет лучшую асимптотику.

Псевдокод

int[] suf_array(string s)
   suf = {0, 1 .. s.length}
   sort(suf, compare1)
   c = {s[0], s[1] .. s[s.length - 1]}

   for l = 1 .. 2^(ceil(log2(n)) - 1) step l *= 2
       sort(suf, compare2)
       c'[suf[0]] = 0
       for i =  1 .. s.length - 1
           l1 = suf[i - 1]
           r1 = suf[i - 1] + l
           l2 = suf[i]
           r2 = suf[i] + l
           if c[l1] [math]\neq[/math] c[l2] or c[r1] [math]\neq[/math] c[r2]
               c'[suf[i]] = c'[suf[i - 1]] + 1
           else
               c'[suf[i]] = c'[suf[i - 1]]
        c = c'
   return suf

order compare1(int j1, int j2)
    if s[j1] < s[j2]
        return LT
    else if s[j1] == s[j2]
        return EQ
    else
        return GT

order compare2(int j1, int j2)
    if c[j1] [math]\neq[/math] c[j2]
        return compare(c[j1], c[j2])
    else
        return compare(c[j1 + l], c[j2 + l])

См. также

Источники информации

Wikipedia — Suffix array construction algorithms

@@ Строка 1: / Строка 1: @@
-{{В разработке}}
+== Идея построения суффиксного массива ==
-== Построение суффиксного массива ==
-Согласно [[Суффиксный массив|определению]] суффиксного массива, для его построения достаточно отсортировать все суффиксы строки. Заменим сортировку суффиксов строки <tex>\alpha</tex> на сортировку циклических сдвигов строки <tex>\alpha\$</tex>, где символ <tex>\$</tex> строго меньше любого символа из <tex>\alpha</tex>. Тогда если в упорядоченных циклических сдвигах отбросить суффикс, начинающийся на <tex>\$</tex>, то получим упорядоченные суффиксы исходной строки <tex>\alpha</tex>. В дальнейшем положим <tex>|\alpha\$| = N </tex> (заметим, что все циклические сдвиги также длины <tex>N</tex>).
+Согласно [[Суффиксный массив|определению]] суффиксного массива, для его построения достаточно отсортировать все суффиксы строки. Заменим сортировку суффиксов строки <tex>\alpha</tex> на сортировку циклических сдвигов строки <tex>\alpha\$</tex>, где символ <tex>\$</tex> строго меньше любого символа из <tex>\alpha</tex>. Тогда если в упорядоченных циклических сдвигах отбросить суффикс, начинающийся на <tex>\$</tex>, то получатся упорядоченные суффиксы исходной строки <tex>\alpha</tex>. В дальнейшем положим <tex>|\alpha\$| = n </tex> (заметим, что все циклические сдвиги также имеют длину <tex>n</tex>), а также <tex>\alpha\$ = s</tex>.
-== Алгоритм за <tex>\bold{O(N^2 log(N))}</tex> ==
+== Наивный алгоритм ==
-Данный алгоритм достаточно тривиален. Отсортируем все циклические сдвиги строки <tex>\alpha\$</tex> воспользовавшись любым известным ранее методом логарифмической сортировки (например "сортировка слиянием"). Тогда время на сравнение любых двух циклических сдвигов будет осуществляться за <tex>O(N)</tex> и суммарная сложность алгоритмы составит <tex>O(N^2\log(N))</tex>.
+Данный алгоритм достаточно тривиален. Отсортируем все циклические сдвиги строки <tex>\alpha\$</tex>, воспользовавшись любым известным методом логарифмической сортировки (например "сортировка слиянием"). Тогда сравнение любых двух циклических сдвигов будет осуществляться за <tex>O(n)</tex> и суммарная сложность алгоритма составит <tex>O(n^2\log n)</tex>.
+=== Псевдокод ===
+ '''int[]''' sufArray('''string''' s)
+    suf = {0, 1 .. s.length}
+    '''sort'''(suf, compare)
+    '''return''' suf
+ '''order''' compare('''int''' j1, '''int''' j2)
+     '''for''' i = 0 .. s.length
+         '''if''' (s[(j1 + i) '''mod''' s.length] > s[(j2 + i) '''mod''' s.length])
+             '''return''' ''GT''
+         '''if''' (s[(j1 + i) '''mod''' s.length] < s[(j2 + i) '''mod''' s.length])
+             '''return''' ''LT''
+     '''return''' ''EQ''
+== Алгоритм, использующий хеши ==
+Данный алгоритм является некоторым улучшением предыдущего. Основная цель {{---}} сократить оценку времени сравнения двух циклических сдвигов до <tex>O(\log n)</tex>, тогда мы по аналогии с предыдущим алгоритмом получим оценку <tex>O(n \log^2 n)</tex>. У нас есть возможность быстро сравнивать подстроки на равенство используя метод, описанный в [[Поиск_подстроки_в_строке_с_использованием_хеширования._Алгоритм_Рабина-Карпа |алгоритме Рабина-Карпа ]].
+Пусть нам необходимо сравнить два циклических сдвига <tex>s[i_1..i_1-1]</tex> и <tex>s[i_2..i_2-1]</tex>. Найдем сначала их наибольший общий префикс (<tex>lcp(i_1,i_2)</tex>), для этого будем использовать двоичный поиск по длине совпадающего префикса, а проверку осуществлять с помощью посчитанных хешей префиксов. Поскольку циклический сдвиг состоит из суффикса и префикса <tex>suf + pref</tex> исходной строки, то с помощью двух хешей префиксов исходной строки можно найти хеш <tex>suf</tex> или префикса <tex>suf</tex>. Таким образом можно найти хеш префикса циклического сдвига.
+Если оказалось, что <tex>lcp(i_1,i_2) = n</tex>, то строки равны. Если же <tex>lcp(i_1,i_2) < n</tex>, то символы <tex>s[i_1 + lcp]</tex> и <tex>s[i_2+lcp]</tex> точно различаются, и их сравнение позволяет сделать вывод, какой из циклических сдвигов меньше в лексикографическом порядке. Итак, двоичный поиск работает за <tex>O(\log n)</tex>, остальные операции требуют константного времени, следовательно, время, необходимое на сравнение двух циклических сдвигов, оценивается как <tex>O(\log n)</tex>.
+=== Псевдокод ===
+ '''int[]''' sufArray('''string''' s)
+    suf = {0, 1 .. s.length}
+    '''sort'''(suf, compare)
+    '''return''' suf
+ '''order''' compare('''int''' j1, '''int''' j2)
+     same = '''lcp'''(j1, j2)
+     '''if''' s[j1 + same] < s[j2 + same]
+         '''return''' ''LT''
+     '''else if''' s[j1 + same] == s2[j2 + same]
+         '''return''' ''EQ''
+     '''else'''
+         '''return''' ''GT''
+ '''int''' lcp(j1, j2)
+    l = -1
+    r = s.length + 1
+    '''while''' r - l > 1
+        m = (r + l) / 2
+        '''if''' hash[j1 .. j1 + m] == hash[j2 .. j2 + m]
+           l = m
+        '''else'''
+           r = m
+    '''return''' l
+== Алгоритм, использующий префиксы циклических сдвигов ==
+Этот алгоритм сильно отличается от двух предыдущих и от него несложно перейти к алгоритму за <tex>O(n \log n)</tex>. Итак, основная идея: на каждом шаге будем сортировать префиксы циклических сдвигов длины <tex>1,2,4,..., 2^{\lceil \log_2 n\rceil}</tex>. Еще одно важное дополнение: после каждой фазы каждому префиксу циклического сдвига <tex>s[i..i-1]</tex> будет присваиваться номер класса эквивалентности  <tex>c[i]</tex> среди этих префиксов. Причем классы эквивалентности должны быть пронумерованы в лексикографическом порядке соответствующих представителей.
+Сначала легко можно отсортировать за <tex>O(n \log n)</tex> префиксы длины <tex>1</tex>, то есть символы. А номера классов поставить в соответствии с порядковым номером символа в алфавите.
+Рассмотрим теперь переход от префиксов длины <tex>l</tex> к префиксам длины <tex>2l</tex>. Научимся сравнивать два префикса длины <tex>2l</tex> за <tex>O(1)</tex>: Пусть даны префиксы <tex>s[i..i+2l-1]</tex>, <tex>s[j..j+2l-1]</tex>, сравним сначала их левые половинки, использовав значения <tex>c[i], c[j]</tex> с предыдущего шага, если <tex>c[i]\neq c[j]</tex>, то префиксы соотносятся так как же, как <tex>c[i]</tex> и <tex> c[j]</tex>, если <tex>c[i]=c[j]</tex>, то переходим к сравнению <tex>c[i+l]</tex> и <tex> c[j+l]</tex>. Итак, отсортировать префиксы длины <tex>2l</tex> можно за <tex>O(n\log n)</tex>. Вычислить новые <tex>c[i]</tex> можно просто пробежавшись в лексикографическом порядке по префиксам, и увеличивая номер соответствующего класса на <tex>1</tex>, если текущий префикс не совпадает с предыдущим (сравнивать с помощью старых <tex>c[i], c[i+l]</tex>).
+После шага <tex>l =2^{\lceil \log_2 n\rceil} \geqslant n</tex> все циклические сдвиги будут отсортированы. Всего шагов <tex>O(\log n)</tex>, каждый шаг проводится за <tex>O(n \log n)</tex>, итоговая асимптотика <tex>O(n \log^2 n)</tex>.
+Схожая идея используется и в [[Алгоритм цифровой сортировки суффиксов циклической строки|алгоритме цифровой сортировки суффиксов циклической строки]], который имеет лучшую асимптотику.
+=== Псевдокод ===
+ '''int[]''' suf_array('''string''' s)
+    suf = {0, 1 .. s.length}
+    '''sort'''(suf, compare1)
+    c = {s[0], s[1] .. s[s.length - 1]}
+    '''for''' l = 1 .. 2^('''ceil'''('''log2'''(n)) - 1) '''step''' l *= 2
+        '''sort'''(suf, compare2)
+        c'[suf[0]] = 0
+        '''for''' i =  1 .. s.length - 1
+            l1 = suf[i - 1]
+            r1 = suf[i - 1] + l
+            l2 = suf[i]
+            r2 = suf[i] + l
+            '''if''' c[l1] <tex>\neq</tex> c[l2] '''or''' c[r1] <tex>\neq</tex> c[r2]
+                c'[suf[i]] = c'[suf[i - 1]] + 1
+            '''else'''
+                c'[suf[i]] = c'[suf[i - 1]]
+         c = c'
+    '''return''' suf
+ '''order''' compare1('''int''' j1, '''int''' j2)
+     '''if''' s[j1] < s[j2]
+         '''return''' ''LT''
+     '''else if''' s[j1] == s[j2]
+         '''return''' ''EQ''
+     '''else'''
+         '''return''' ''GT''
+ '''order''' compare2('''int''' j1, '''int''' j2)
+     '''if''' c[j1] <tex>\neq</tex> c[j2]
+         '''return''' '''compare'''(c[j1], c[j2])
+     '''else'''
+         '''return''' '''compare'''(c[j1 + l], c[j2 + l])
+==См. также==
+* [[Суффиксный массив]]
+* [[Алгоритм цифровой сортировки суффиксов циклической строки]]
+==Источники информации==
+[http://en.wikipedia.org/wiki/Suffix_array#Construction_Algorithms Wikipedia — Suffix array construction algorithms]
+[[Категория:Алгоритмы и структуры данных]]
+[[Категория:Суффиксный массив]]

Построение суффиксного массива с помощью стандартных методов сортировки — различия между версиями

Текущая версия на 19:39, 4 сентября 2022

Содержание

Идея построения суффиксного массива

Наивный алгоритм

Псевдокод

Алгоритм, использующий хеши

Псевдокод

Алгоритм, использующий префиксы циклических сдвигов

Псевдокод

См. также

Источники информации

Навигация

Персональные инструменты

Пространства имён

Варианты

Просмотры

Ещё

Поиск

Навигация

Инструменты