Изменения

Z-функция

2841 байт добавлено, 23:14, 15 ноября 2017

→‎Описание алгоритма

{{Определение

|definition = '''Z-функция''' (англ. ''Z-function'') от строки <tex>S</tex> и позиции <tex>x</tex> — это длина максимального префикса подстроки, начинающейся с позиции <tex>x</tex> в строке <tex>S</tex>, который одновременно является и префиксом всей строки <tex>S</tex>. Более формально, <tex>Z[i](s) = \max k \mid s[i\, \~~mathinner{\ldotp\ldotp}~~ldots \, i + k] = s[0 \~~mathinner{\ldotp\ldotp}~~ ldots k]</tex>.

Значение Z-функции от первой позиции не определено, поэтому его обычно приравнивают к нулю или к длине строки.

'''while''' i + zf[i] < n '''and''' s[zf[i]] == s[i + zf[i]]

zf[i]++

'''if''' i + zf[i] >= right

left = i

right = i + zf[i]

==Построение строки по Z-функции==

{{Задача

|definition= ~~Восстановить~~ Необходимо восстановить строку по Z-функции ~~за <tex>O(n)</tex>~~, считая алфавит ограниченным.

}}

===Описание алгоритма===

Пусть в массиве <tex>z</tex> хранятся значения Z-функции, в <tex>s</tex> будет записан ответ. Пойдем по массиву <tex>z</tex> слева направо.

Нужно узнать значение <tex>s[i]</tex>. Для этого посмотрим на значение <tex>z[i]</tex>: если <tex>z[i] = 0</tex>, тогда в <tex>s[i]</tex> запишем ещё не использованный символ или последний использованный символ алфавита, если мы уже использовали все символы. Если <tex>z[i] \neq 0</tex>, то нам нужно записать префикс длины <tex>z[i]</tex> строки <tex>s</tex>. Но если при посимвольном записывании этого префикса в конец строки <tex>s</tex> мы нашли такой <tex>j</tex> (индекс последнего символа строки), что <tex>z[j]</tex> больше, чем длина оставшейся незаписанной части префикса, то мы перестаём писать этот префикс и пишем префикс длиной <tex>z[j]</tex> строки <tex>s</tex>.

Для правильной работы алгоритма, будем считать значение <tex>z[0]</tex> равным нулю.

~~Алгоритм~~ Заметим, что не всегда ~~сможет построить~~ удастся восстановить строку ~~по корректному массиву значений~~ с ограниченным алфавитом неподходящего размера. Например, для строки <tex>abacaba</tex> массив Z-функций будет <tex>[0, 0, 1, 0, 3, 0, 1]</tex>. Используя двоичный алфавит, мы получим строку <tex>abababa</tex>, но её массив Z-~~функции~~функций отличается от исходного. Ошибка восстановления строки возникла, ~~если в алфавите больше одного символа~~когда закончились новые символы алфавита.

Если строить строку по некорректному массиву значений Z-функции, то мы получим какую-то строку, но массив значений Z-функций от неё будет отличаться от исходного.

=== Время работы ===

Этот алгоритм работает за O(|S|), так как мы один раз проходим по массиву Z-функций.

=== Реализация ===

'''string''' buildFromZ(z : '''int'''[], alphabet : '''char'''[]):

Докажем, что если нам дали корректную Z-функцию, то наш алгоритм построит строку с такой же Z-функцией.

Пусть <tex>z</tex> — данная Z-функция, строку <tex>s</tex> построил наш алгоритм, <tex>q</tex> — массив значений Z-функции для <tex>s</tex>. Покажем, что массивы <tex>q</tex> и <tex>z</tex> будут совпадать.

~~Так как значение~~ [[Файл: Запись_префикса.png|330px|thumb|right|Записали префикс, начинающийся в <tex>~~z[0]~~i</tex> ~~неопределено~~. После пишем префикс, ~~то мы рассматриваем ненулевые индексы массива~~ начинающийся в <tex>zj</tex>.Этот префикс не изменит символы первого префикса.]]

~~Если~~ Рассмотрим похожий алгоритм, но с более худшей асимптотикой. Отличие будет в том, что при <tex>z[i] = > 0</tex>~~, то по алгоритму~~ мы будем писать префикс полностью и возвращаться в позицию <tex>s[i]+ 1</tex> ~~будет отличаться от~~ . Рассмотрим каждый шаг этого алгоритма. Если <tex>sz[i] = 0]</tex>~~. Тогда~~, ~~при подсчёте Z-функции для полученной~~ то мы пишем символ, отличный от первого символа строки, ~~мы получим, что~~ поэтому <tex>q[i] = 0</tex>, ~~ведь~~ а значит <tex>sq[i] ~~\neq s~~= z[0i]</tex>. ~~Значит, если~~ Если <tex>z[i] = > 0</tex>, то при записи <tex>s[i]</tex>мы будем получать <tex>q[i] = z[i] = </tex>, потому что мы переписали префикс строки. Но далее мы можем переписать этот префикс другим префиксом. Заметим, что новый префикс будет содержаться и в префиксе самой строки, поэтому пересечение двух префиксов будет состоять из одинаковых символов. Значит, префикс не будет изменяться, как и значение <tex>q[i]</tex>. Тогда массив <tex>q</tex> совпадает с <tex>z</tex>.

~~Рассмотрим значения <tex>z[i] \ne 0</tex>~~Покажем, что этот алгоритм эквивалентен нашему алгоритму. ~~В этом случае <tex>s[i]</tex> является началом~~ Когда мы пишем разные префиксы, то возможны три варианта: они не пересекаются (начало и конец одного префикса не принадлежат другому), один лежит внутри другого (начало и конец префикса ~~исходной строки. Будем называть подстроки~~принадлежит другому), ~~совпадающие с префиксом строки~~они пересекаются (начало одного префикса пренадлежит другому, ~~блоками~~но конец не принадлежит). ~~Возможны три случая:~~* ~~Мы полностью записали рассматриваемый блок длиной <tex>z~~Если префиксы не пересекаются, то в алгоритме они не влияют друг на друга.[[~~i]</tex>~~Файл: Префиксы1. ~~По определению Z-функции <tex>q[i~~png|400px] ~~= z[i~~]~~</tex>.~~* ~~Мы записали часть рассматриваемого блока <tex>b_1</tex>~~ Если префикс лежит внутри другого префикса, то записав большой префикс мы запишем и ~~прервались~~малый, ~~чтобы записать новый блок <tex>b_2</tex>~~поэтому не нужно возвращаться к началу малого префикса. ~~Допустим~~[[Файл: Префиксы2.png|400px]]* Если префиксы пересекаются, ~~что мы полностью написали блок <tex>b_1</tex>~~то нам нужно переписать часть префикса, а после написали блок <tex>b_2</tex>. В таком случае мы переписали символы в пересечении двух блоков. Эти символы совпадаюткоторый начинается раньше, ~~иначе массив <tex>z</tex> был бы некорректным. Поэтому блок <tex>b_1</tex> запишется правильно~~ и ~~полностью~~начать писать другой префикс (начало этого префикса запишет конец префикса, начинающегося раньше). ~~Этот случай мы уже рассмотрели выше.~~* Рассматриваемый блок <tex>b_1</tex> Если полностью ~~покрывается блоком <tex>b_2</tex>~~переписать префикс, ~~который мы уже пишем. Допустим~~начинающийся раньше, ~~что~~ то мы ~~напишем блок <tex>b_1</tex> после того~~не сможем восстановить префикс, ~~как написали блок <tex>b_2</tex>~~который начинался раньше конца первого префикса. При корректном массиве <tex>z</tex> символы в пересечении двух блоков совпадут. Тогда мы можем просто рассматривать блок <tex>b_1</tex> аналогично одному из предыдущих случаев[[Файл: Префиксы3.png|400px]]

Таким образом, ~~мы доказали, что значения массивов <tex>q</tex>~~ алгоритмы эквивалентны и ~~<tex>z</tex> совпадают~~наш алгоритм тоже корректен.

==Построение Z-функции по префикс-функции==

{{Задача|definition= Дан массив с корректной [[Префикс-функция | префикс-функцией]] для строки <tex>s</tex>. Требуется получить массив с Z-функцией для строки <tex>s</tex>.}}[[Файл:Case one.png|300px|thumb|right|'''Случай первый''']]

[[Файл:Case two.png|300px|thumb|right|'''Случай второй''']]

[[Файл:Case three.png|300px|thumb|right|'''Случай третий''']]

~~=== Постановка задачи ===~~Дан массив с корректной [[Префикс-функция | префикс-функцией]] для строки <tex>s</tex>, получить массив с Z-функцией для строки <tex>s</tex>.

===Описание алгоритма===

Пусть префикс функция хранится в массиве <tex>P[0 ~~...~~ \ldots n - 1]</tex>. Z-функцию будем записывать в массив <tex>Z[0 ~~...~~ \ldots n-1]</tex>. Заметим, что если <tex>P[i]>0</tex>, то мы можем заявить, что <tex>Z[i-P[i]+1]</tex> будет не меньше, чем <tex>P[i]</tex>.

Пусть в <tex>Z[i] = z > 0</tex>, рассмотрю <tex>j<z</tex>, <tex>Z[j]=k</tex> и <tex>Z[i+j]=k_1</tex>. ~~Заметим~~Пусть <tex>b_1=s[0 \ldots k-1]</tex>, <tex>b_2=s[j \ldots j+k-1]</tex>, ~~что~~ <tex>b_3=s[0 ~~...~~ \ldots z-1]</tex> ~~совпадает с~~ . Тогда заметим, что <tex>b_3 = s[i~~...~~\ldots i+z-1]</tex> и тогда возможны три случая:

# <tex>k<k_1</tex>.

#: Тогда <tex>b_1 \subset s[0 \ldots k_1-1]=s[i+j \ldots i+j+k_1-1]</tex> и тогда очевидно, что мы не можем увеличить значение <tex>Z[i+j]</tex> и надо рассматривать уже <tex>i=i+j</tex>. ~~~~ # <tex>k<z-j</tex> и <tex>k>k_1</tex>. #:Тогда <tex>b_1 = b_2 \subset b_3 = s[i \ldots i+z-1] \Rightarrow b_1 = s[i+j \ldots i+j+k-1]</tex> и тогда очевидно, что <tex>Z[i+j]</tex> можно увеличить до <tex>k</tex>. ~~~~

# <tex>k>z-j</tex> и <tex>k>k_1</tex>.

#:Тогда <tex>b_1 = b_2 </tex>, но <tex>b_2</tex> не является подстрокой строки <tex>b_3</tex> (так как<tex>j+k-1 > z</tex>). Так как известно, что <tex>s[z] \ne s[i+z]</tex>, то <tex>s[0 \ldots z-j] = s[i+j \ldots i+z-1]</tex> и тогда понятно, что <tex>Z[i+j]=z-j</tex>. ~~~~

===Псевдокод===

'''int[]''' buildZFunctionFromPrefixFunction(P : '''int'''[n])

'''int'''[] Z = '''int'''[n]

'''for''' i = 1 '''to''' n - 1

Z[i - P[i] + 1] = P[i]

Z[0] = n

'''int''' ti = 1 '''~~for~~while''' i ~~= 1~~ < n '''toint''' ~~n - 1~~ t = i

'''if''' Z[i] > 0

'''for''' j = 1 '''to''' Z[i] - 1

'''if''' Z[i+j] > Z[j]

'''break'''

Z[i + j] = min(Z[j], Z[i] - j)

t = i + j

i = t+ 1

'''return''' Z

===Время работы===

Внешний цикл <tex>\mathrm{while}</tex> отработает за <tex>O(n)</tex> итераций, так как внутри него <tex>i</tex> увеличивается не менее чем на <tex>1</tex>. А внутренний цикл выполнит суммарно не более <tex>O(n)</tex> итераций, так как после него <tex>i</tex> увеличится на количество итераций внутреннего цикла, но <tex>i</tex> не может увеличиться более чем на <tex>n</tex>, так как каждое значение <tex>Z[i]</tex> не может превзойти <tex>n</tex>.

== См. также ==

* [http://habrahabr.ru/post/113266/ Поиск подстроки и смежные вопросы — Хабр]

* [[wikipedia:ru:Z-функция | Википедия — Z-функция]]

* [http://codeforces.ru/blog/entry/9612/ Codeforces — Переход между Z- и префикс- функциями]

[[Категория: Дискретная математика и алгоритмы]]

[[Категория: Поиск подстроки в строке]]

[[Категория:Точный поиск]]

Анонимный участник

188.227.78.184

Изменения

Z-функция

Навигация

Персональные инструменты

Пространства имён

Варианты

Просмотры

Ещё

Поиск

Навигация

Инструменты