Суффиксный массив — различия между версиями

Версия 16:40, 10 июня 2015

Определение:

Cуффиксным массивом (англ. suffix array) строки называется массив целых чисел от до , такой, что суффикс — -й в лексикографическом порядке среди всех непустых суффиксов строки .

Содержание

1 Пример
2 Восстановление строки по суффиксному массиву
3 Применения
4 См. также
5 Источники

Пример

[math]s = abacaba[/math]

Значит, суффиксный массив для строки [math]s[/math] равен [math][7, 5, 1, 3, 6, 2, 4][/math].

Восстановление строки по суффиксному массиву

Постановка задачи

Дан суффиксный массив некоторой строки [math]s[/math], необходимо восстановить строку за время [math]O(|s|)[/math].

Вариант для бесконечного алфавита

Так как наш алфавит не ограничен, можно [math]i[/math]-й в лексикографическом порядке суффикс сопоставить с [math]i[/math]-й буквой в алфавите.

Псевдокод

string (int[] sa):
  for i = 1 to n
       s[sa[i]] = alphabet[i] 
  return s

Вариант для минимально возможного

Для начала вместо каждого символа строки поставим символ из бесконечного алфавита в промежуточную строку [math]tmp[/math], как в решении выше. Пусть, мы рассматриваем [math]i[/math]-й в лексикографическом порядке суффикс (т.е. и i-ый символ строки). Его первый символ будет равен первому символу предущего в лексикографическом порядке суффикса, если tmp[sa[i - 1] + 1] < tmp[sa[i] + 1], т.е. и их строки без первого символа так же в лексикографическом порядке. Иначе он должен быть больше, т.к. рассматриваемый суффикс следующий в лексикографическом порядке.

Псевдокод

string (int[] sa):
  for i = 1 to n
       tmp[sa[i]] = alphabet[i]
  cur = 1
  s[1] = alphabet[1]
  for i = 2 to n
       j = sa[i - 1]
       k = sa[i]
       if tmp[j + 1] > tmp[k + 1] 
           cur++;
       s[i] = alphabet[cur]       
  return s

Применения

Позволяет найти все вхождения образца [math]p[/math] в строку [math]s[/math] за время [math]O(|p| + \log(|s|))[/math].
Позволяет вычислить наибольший общий префикс (англ. longest common prefix, LCP) для всех соседних в лексикографическом порядке суффиксов строки [math]s[/math] за [math]O(|s|)[/math], то есть построить массив [math]LCP[1 .. |s| - 1][/math], где [math]LCP[i][/math] — длина наибольшего общего префикса суффиксов [math]s[suf[i] .. |s|][/math] и [math]s[suf[i + 1] .. |s|][/math].
Позволяет найти количество различных подстрок в строке за время [math]O(|s| \log(|s|))[/math] и [math]O(|s|)[/math] дополнительной памяти.
Позволяет найти наименьший циклический сдвиг строки за время [math]O(|s| \log(|s|))[/math].
Позволяет найти максимальную по длине строку, ветвящуюся влево и вправо за время [math]SA + O(n)[/math], где [math]SA[/math] — время построения суффиксного массива.

См. также

Источники

Дэн Гасфилд — Строки, деревья и последовательности в алгоритмах: Информатика и вычислительная биология — СПб.: Невский Диалект; БХВ-Петербург, 2003. — 654 с: ил.
MAXimal :: algo :: Суффиксный массив
Википедия — Суффиксный массив
Wikipedia — Suffix array
Habrahabr — Суффиксный массив — удобная замена суффиксного дерева

@@ Строка 31: / Строка 31: @@
          tmp[sa[i]] = alphabet[i]
     cur = 1
-    s[1] = alphabet[1];
+    s[1] = alphabet[1]
     '''for''' i = 2 '''to''' n
-         j = sa[i - 1];
+         j = sa[i - 1]
-         k = sa[i];
+         k = sa[i]
          '''if''' tmp[j + 1] > tmp[k + 1]
              cur++;

Суффиксный массив — различия между версиями

Версия 16:40, 10 июня 2015

Содержание

Пример

Восстановление строки по суффиксному массиву

Постановка задачи

Вариант для бесконечного алфавита

Псевдокод

Вариант для минимально возможного

Псевдокод

Применения

См. также

Источники

Навигация

Персональные инструменты

Пространства имён

Варианты

Просмотры

Ещё

Поиск

Навигация

Инструменты