Префикс-функция — различия между версиями

Версия 10:43, 12 мая 2014

Определение:

Префикс-функция (prefix-function) от строки(обозначается ) - длина наибольшего префикса строки , который не совпадает с этой строкой и одновременно является ее суффиксом

Префикс-функция строки [math]s[/math] — функция .

Здесь и далее считаем, что символы в строках нумеруются с [math]1[/math].

Содержание

1 Наивный алгоритм
2 Эффективный алгоритм
- 2.1 Псевдокод
- 2.2 Время работы
3 Построение строки по префикс-функции
4 Литература

Наивный алгоритм

Наивный алгоритм вычисляет префикс функцию непосредственно по определению, сравнивая префиксы и суффиксы строк.

Псевдокод

Prefix_function ([math]s[/math])
     [math]\pi[/math] = [0,..,0]
     for i = 1 to n
         for k = 1 to i - 1
             if s[1..k] == s[i - k + 1..i]
                 [math]\pi[/math][i] = k
     return [math]\pi[/math]

Пример

Рассмотрим строку abcabcd, для которой значение префикс-функции равно [math][0,0,0,1,2,3,0][/math].

Шаг	Строка	Значение функции
[math]1[/math]	a	0
[math]2[/math]	ab	0
[math]3[/math]	abc	0
[math]4[/math]	abca	1
[math]5[/math]	abcab	2
[math]6[/math]	abcabc	3
[math]7[/math]	abcabcd	0

Время работы

Всего [math]O(n^2)[/math] итераций цикла, на каждой из который происходит сравнение строк за [math]O(n)[/math], что дает в итоге [math]O(n^3)[/math].

Эффективный алгоритм

Вносятся несколько важных замечаний:

Следует заметить, что [math]\pi(i) \le \pi(i-1) + 1[/math]. По определению префикс функции верно, что . В частности, получается, что . Поскольку [math]\pi[/math] это наибольший префикс равный суффиксу, то [math]\pi(i - 1) \ge \pi(i) - 1[/math].
Избавимся от явных сравнений строк. Для этого подберем такое [math]k[/math], что [math]k = \pi(i) - 1[/math]. Делаем это следующим образом. За исходное [math]k[/math] необходимо взять [math]\pi(i - 1)[/math], что следует из первого пункта. В случае, когда символы [math]s[k+1][/math] и [math]s[i][/math] не совпадают, [math]\pi(k)[/math] — следующее потенциальное наибольшее значение [math]k[/math], что видно из рисунка. Последнее утверждение верно, пока [math]k\gt 0[/math], что позволит всегда найти его следующее значение. Если [math]k=0[/math], то [math]\pi(i)=1[/math] при [math]s[i] = s[1][/math] , иначе [math]\pi(i)=0[/math].

Псевдокод

Prefix_function ([math]s[/math])
     [math]\pi[/math][1] = 0
     k = 0
     for i = 2 to n
         while k > 0 && s[i] != s[k + 1]
             k = [math]\pi[/math][k]
         if s[i] == s[k + 1]
             k++
         [math]\pi[/math][i] = k
     return [math]\pi[/math]

Время работы

Время работы алгоритма составит [math]O(n)[/math]. Для доказательства этого нужно заметить, что итоговое количество итераций цикла [math]while[/math] определяет асимптотику алгоритма. Теперь стоит отметить, что [math]k[/math] увеличивается на каждом шаге не более чем на единицу, значит максимально возможное значение [math]k = n - 1[/math]. Поскольку внутри цикла [math]while[/math] значение [math]k[/math] лишь уменьшается, получается, что [math]k[/math] не может суммарно уменьшиться больше, чем [math]n-1[/math] раз. Значит цикл [math]while[/math] в итоге выполнится не более [math]n[/math] раз, что дает итоговую оценку времени алгоритма [math]O(n)[/math].

Построение строки по префикс-функции

Постановка задачи

Восстановить строку по префикс-функции за [math]O(N)[/math], считая алфавит неограниченным.

Описание алгоритма

Пусть в массиве [math]p[/math] хранятся значения префикс-функции, в [math]s[/math] будет записан ответ. Пойдем по массиву [math]p[/math] слева направо.

Пусть мы хотим узнать значение [math]s[i][/math]. Для этого посмотрим на значение [math]p[i][/math]: если [math]p[i] =0[/math] тогда в [math]s[i][/math] запишем новый символ, иначе [math]s[i] = s[p[i]][/math]. Обратим внимание, что [math]s[p[i]][/math] нам уже известно, так как [math]p[i] \lt i[/math].

string buildFromPrefix(int[] p):
  s = "" 
  for i = 0 to p.length - 1:
      if p[i] == 0:     
          s += new character
      else:
          s += s[p[i]]
  return s

Доказательство корректности алгоритма

Докажем, что если нам дали корректную префикс-функцию, то наш алгоритм построит строку с такой же префикс-функцией. Также заметим, что строк с такой префикс-функцией может быть много, и алгоритм строит только одну из них.

Пусть [math]p[/math] данная префикс-функция, [math]s'[/math] правильная строка, строку [math]s[/math] построил наш алгоритм, [math] q [/math] массив значений префикс-функции для [math]s[/math].

Докажем корректность индукцией по длине массива префикс-функции полученной строки. Для начала заметим, что на предыдущие значения массива [math] q [/math] прибавление нового символа не влияет, так как при подсчёте префикс-функции на [math] i [/math]-ой позиции рассматриваются символы на позициях не больше [math] i [/math]. Поэтому достаточно показать, что очередное значение префикс-функции будет вычислено правильно.

База очевидна для строки длины [math]1[/math].
Переход: пусть до [math]n[/math]-ой позиции мы построили строку, что [math]p[1..n - 1] = q[1..n - 1][/math]. Возможны два случая:
- [math]p[n] = 0[/math]. Тогда мы добавляем новый символ, поэтому [math]q[n][/math] тоже будет равно [math]0[/math].
- [math]p[n] \gt 0[/math]. По свойствам префикс-функции [math] s'[p[n]] = s'[n] [/math] — суффикс и префикс строки [math] s' [/math] длины [math] p[n] [/math] продолжаются одним символом, значит, надо на текущую позицию строки [math] s [/math] поставить символ [math] s[p[n]] [/math]. Если значение префикс-функции увеличивается, значит, текущим символом продолжается префикс длины [math] p[n - 1] [/math], а из свойств следует, что . По предположению индукцию значение [math] q[n - 1] [/math] будет вычислено верно. А если значение префикс-функции не увеличивается, значит, символ [math] s[n] [/math] должен продолжить префикс меньшей длины, а в текущее значение префикс-функции запишется как раз длина нового бордера. Для этого будут использованы значения префикс-функции с меньшими индексами, которые посчитаны верно, опять же по препдположению индукции.

Литература

Кормен Т., Лейзерсон Ч., Ривест Р. Алгоритмы: построение и анализ. — 2-е изд. — М.: Издательский дом «Вильямс», 2007. — С. 1296 ISBN 978-5-8459-0857-5

@@ Строка 1: / Строка 1: @@
-Префикс-функция строки <tex>s</tex> {{---}} функция <tex>\pi(i) = \max\limits_{k = 1..i - 1} \{ 0, k : </tex> <tex>s[1..k] = s[i - k + 1..i] \}</tex>.
+{{Определение
+|definition = '''Префикс-функция''' ''(prefix-function)'' от строки(обозначается <tex>\pi(s,i)</tex>) - длина наибольшего префикса строки <tex>S[1..i]</tex>, который не совпадает с этой строкой и одновременно является ее суффиксом}}
+Префикс-функция строки <tex>s</tex> {{---}} функция <tex>\pi(s, i) = \max\limits_{k = 1..i - 1} \{ 0, k : </tex> <tex>s[1..k] = s[i - k + 1..i] \}</tex>.
 Здесь и далее считаем, что символы в строках нумеруются с <tex>1</tex>.
-==Алгоритм==
+==Наивный алгоритм==
 Наивный алгоритм вычисляет префикс функцию непосредственно по определению, сравнивая префиксы и суффиксы строк.
@@ Строка 37: / Строка 40: @@
 Всего <tex>O(n^2)</tex> итераций цикла, на каждой из который происходит сравнение строк за <tex>O(n)</tex>, что дает в итоге <tex>O(n^3)</tex>.
-==Оптимизация==
+==Эффективный алгоритм==
 Вносятся несколько важных замечаний:
 *Следует заметить, что <tex>\pi(i) \le \pi(i-1) + 1</tex>. По определению префикс функции верно, что <tex>s[1..\pi(i)] = s[i - \pi(i) + 1..i]</tex>. В частности, получается, что <tex>s[1..\pi(i) - 1] = s[i - \pi(i) + 1..i - 1]</tex>. Поскольку <tex>\pi</tex> это наибольший префикс равный суффиксу, то <tex>\pi(i - 1) \ge \pi(i) - 1</tex>.
@@ Строка 89: / Строка 92: @@
 == Литература ==
-Кормен Т., Лейзерсон Ч., Ривест Р. Алгоритмы: построение и анализ. {{---}} 2-е изд. {{---}} М.: Издательский дом «Вильямс», 2007. {{---}} С. 1296.
+* Кормен Т., Лейзерсон Ч., Ривест Р. Алгоритмы: построение и анализ. {{---}} 2-е изд. {{---}} М.: Издательский дом «Вильямс», 2007. {{---}} С. 1296 ISBN 978-5-8459-0857-5
-[[Категория:Алгоритмы и структуры данных]]
+[[Категория: Алгоритмы и структуры данных]]
-[[Категория:Поиск подстроки в строке]]
+[[Категория: Поиск подстроки в строке]]

Префикс-функция — различия между версиями

Версия 10:43, 12 мая 2014

Содержание

Наивный алгоритм

Псевдокод

Пример

Время работы

Эффективный алгоритм

Псевдокод

Время работы

Построение строки по префикс-функции

Постановка задачи

Описание алгоритма

Доказательство корректности алгоритма

Литература

Навигация

Персональные инструменты

Пространства имён

Варианты

Просмотры

Ещё

Поиск

Навигация

Инструменты