Z-функция — различия между версиями
(Добавил построение строки) |
|||
| Строка 65: | Строка 65: | ||
==Построение строки по Z-функции== | ==Построение строки по Z-функции== | ||
| − | = | + | {{Задача |
| − | Восстановить строку по Z-функции за <tex>O(n)</tex>, считая алфавит ограниченным. | + | |definition= Восстановить строку по Z-функции за <tex>O(n)</tex>, считая алфавит ограниченным. |
| + | }} | ||
===Описание алгоритма=== | ===Описание алгоритма=== | ||
| + | |||
Пусть в массиве <tex>z</tex> хранятся значения Z-функции, в <tex>s</tex> будет записан ответ. Пойдем по массиву <tex>z</tex> слева направо. | Пусть в массиве <tex>z</tex> хранятся значения Z-функции, в <tex>s</tex> будет записан ответ. Пойдем по массиву <tex>z</tex> слева направо. | ||
Нужно узнать значение <tex>s[i]</tex>. Для этого посмотрим на значение <tex>z[i]</tex>: если <tex>z[i] = 0</tex>, тогда в <tex>s[i]</tex> запишем ещё не использованный символ или последний использованный символ алфавита, если мы уже использовали все символы. Если <tex>z[i] \neq 0</tex>, то нам нужно записать префикс длины <tex>z[i]</tex> строки <tex>s</tex>. Но если при посимвольном записывании этого префикса в конец строки <tex>s</tex> мы нашли такой <tex>j</tex> (индекс последнего символа строки), что <tex>z[j]</tex> больше, чем длина оставшейся незаписанной части префикса, то мы перестаём писать этот префикс и пишем префикс длиной <tex>z[j]</tex> строки <tex>s</tex>. | Нужно узнать значение <tex>s[i]</tex>. Для этого посмотрим на значение <tex>z[i]</tex>: если <tex>z[i] = 0</tex>, тогда в <tex>s[i]</tex> запишем ещё не использованный символ или последний использованный символ алфавита, если мы уже использовали все символы. Если <tex>z[i] \neq 0</tex>, то нам нужно записать префикс длины <tex>z[i]</tex> строки <tex>s</tex>. Но если при посимвольном записывании этого префикса в конец строки <tex>s</tex> мы нашли такой <tex>j</tex> (индекс последнего символа строки), что <tex>z[j]</tex> больше, чем длина оставшейся незаписанной части префикса, то мы перестаём писать этот префикс и пишем префикс длиной <tex>z[j]</tex> строки <tex>s</tex>. | ||
| + | |||
| + | Для правильной работы алгоритма, будем считать значение <tex>z[0]</tex> равным нулю. | ||
| + | |||
| + | Алгоритм всегда сможет построить строку по корректному массиву значений Z-функции, если в алфавите больше одного символа. | ||
=== Реализация === | === Реализация === | ||
| − | '''string''' buildFromZ(z : '''int'''[]): | + | '''string''' buildFromZ(z : '''int'''[], alphabet : '''char'''[]): |
| − | '''string''' s = " | + | '''string''' s = "" |
| − | '''int''' prefixLength = | + | '''int''' prefixLength = 0 <font color=green>// длина префикса, который мы записываем</font> |
'''int''' j <font color=green>// позиция символа в строке, который будем записывать</font> | '''int''' j <font color=green>// позиция символа в строке, который будем записывать</font> | ||
| + | '''int''' newCharacter = 0 <font color=green>// индекс нового символа</font> | ||
'''for''' i = 0 '''to''' z.length - 1 | '''for''' i = 0 '''to''' z.length - 1 | ||
<font color=green>// мы не пишем какой-то префикс и не будем писать новый</font> | <font color=green>// мы не пишем какой-то префикс и не будем писать новый</font> | ||
'''if''' z[i] = 0 '''and''' prefixLength = 0 | '''if''' z[i] = 0 '''and''' prefixLength = 0 | ||
| − | s += | + | if newCharacter < alphabet.length |
| + | s += alphabet[newCharacter] | ||
| + | newCharacter++ | ||
| + | else | ||
| + | s += alphabet[newCharacter - 1] | ||
<font color=green>// нам нужно запомнить, что мы пишем префикс </font> | <font color=green>// нам нужно запомнить, что мы пишем префикс </font> | ||
| − | '''if''' z[i] > prefixLength | + | '''if''' z[i] > prefixLength |
prefixLength = z[i] | prefixLength = z[i] | ||
j = 0 | j = 0 | ||
<font color=green>// пишем префикс</font> | <font color=green>// пишем префикс</font> | ||
| − | '''if''' prefixLength > 0 | + | '''if''' prefixLength > 0 |
s += s[j] | s += s[j] | ||
j++ | j++ | ||
| Строка 99: | Строка 110: | ||
Пусть <tex>z</tex> — данная Z-функция, строку <tex>s</tex> построил наш алгоритм, <tex>q</tex> — массив значений Z-функции для <tex>s</tex>. | Пусть <tex>z</tex> — данная Z-функция, строку <tex>s</tex> построил наш алгоритм, <tex>q</tex> — массив значений Z-функции для <tex>s</tex>. | ||
| − | + | Если <tex>z[i] = 0</tex>, то и <tex>q[i] = 0</tex>, так как <tex>s[i] \ne s[0]</tex> (в результате алгоритма мы получаем, что <tex>s[i] \neq a</tex>, а <tex>s[0] = a</tex>). | |
| − | Рассмотрим значения <tex>z[i] \ne 0</tex>. В этом случае | + | Рассмотрим значения <tex>z[i] \ne 0</tex>. В этом случае <tex>s[i]</tex> является началом префикса исходной строки. Назовём подстроку, совпадающую с некоторым префиксом строки, блоком. Возможны три положения блока, относительно других блоков. |
| − | # | + | #Он не пересекает другие блоки (но может полностью включать в себя какой-то блок). Тогда <tex>q[i] = z[i]</tex>, потому что наш алгоритм полностью скопирует префикс всей строки. |
| − | + | #Рассмотрим случай, когда мы записали часть префикса и прервались для написания нового. Новый блок корректно закончит предыдущий блок (иначе бы массив <tex>z</tex> был бы некорректен, и предыдущий блок будет совпадать с префиксом, тогда <tex>q[i] = z[i]</tex>. | |
| − | #Рассмотрим случай, когда мы записали часть префикса и прервались для написания нового. | + | #Если блок лежит внутри другого блока, то его массив <tex>q</tex> совпадает с массивом для блока, содержащегося в префиксе строки. Проверяем корректность массива <tex>q</tex> для этого блока. |
| + | Таким образом, мы рассмотрели все случаи, при которых <tex>z[i] \ne 0</tex>, и показали корректность восстановления блока. | ||
== См. также == | == См. также == | ||
* [[Префикс-функция]] | * [[Префикс-функция]] | ||
Версия 17:52, 27 марта 2016
| Определение: |
| Z-функция (англ. Z-function) от строки и позиции — это длина максимального префикса подстроки, начинающейся с позиции в строке , который одновременно является и префиксом всей строки . Более формально, . Значение Z-функции от первой позиции не определено, поэтому его обычно приравнивают к нулю или к длине строки. |
Примечание: далее в конспекте символы строки нумеруются с нуля.
Содержание
Тривиальный алгоритм
Простая реализация за , где — длина строки. Для каждой позиции перебираем для неё ответ, начиная с нуля, пока не обнаружим несовпадение или не дойдем до конца строки.
Псевдокод
int[] zFunction(s : string):
int[] zf = int[n]
for i = 1 to n − 1
while i + zf[i] < n and s[zf[i]] == s[i + zf[i]]
zf[i]++
return zf
Эффективный алгоритм поиска
Z-блоком назовем подстроку с началом в позиции и длиной .
Для работы алгоритма заведём две переменные: и — начало и конец Z-блока строки с максимальной позицией конца (среди всех таких Z-блоков, если их несколько, выбирается наибольший). Изначально и .
Пусть нам известны значения Z-функции от до . Найдём .
Рассмотрим два случая.
- :
Просто пробегаемся по строке и сравниваем символы на позициях и .Пусть первая позиция в строке для которой не выполняется равенство , тогда это и Z-функция для позиции . Тогда . В данном случае будет определено корректное значение в силу того, что оно определяется наивно, путем сравнения с начальными символами строки. - :
Сравним и . Если меньше, то надо просто наивно пробежаться по строке начиная с позиции и вычислить значение . Корректность в таком случае также гарантирована.Иначе мы уже знаем верное значение , так как оно равно значению .
Время работы
Этот алгоритм работает за , так как каждая позиция пробегается не более двух раз: при попадании в диапазон от до и при высчитывании Z-функции простым циклом.
Псевдокод
int[] zFunction(s : string):
int[] zf = int[n]
int left = 0, right = 0
for i = 1 to n − 1
zf[i] = max(0, min(right − i, zf[i − left]))
while i + zf[i] < n and s[zf[i]] == s[i + zf[i]]
zf[i]++
if i + zf[i] >= right
left = i
right = i + zf[i]
return zf
Поиск подстроки в строке с помощью Z-функции
— длина текста. — длина образца.
Образуем строку s = pattern + # + text, где # — символ, не встречающийся ни в text, ни в pattern. Вычисляем Z-функцию от этой строки.
В полученном массиве, в позициях в которых значение Z-функции равно , по определению начинается подстрока, совпадающая с pattern.
Псевдокод
int substringSearch(text : string, pattern : string):
int[] zf = zFunction(pattern + '#' + text)
for i = m + 1 to n + 1
if zf[i] == m
return i
Построение строки по Z-функции
| Задача: |
| Восстановить строку по Z-функции за , считая алфавит ограниченным. |
Описание алгоритма
Пусть в массиве хранятся значения Z-функции, в будет записан ответ. Пойдем по массиву слева направо.
Нужно узнать значение . Для этого посмотрим на значение : если , тогда в запишем ещё не использованный символ или последний использованный символ алфавита, если мы уже использовали все символы. Если , то нам нужно записать префикс длины строки . Но если при посимвольном записывании этого префикса в конец строки мы нашли такой (индекс последнего символа строки), что больше, чем длина оставшейся незаписанной части префикса, то мы перестаём писать этот префикс и пишем префикс длиной строки .
Для правильной работы алгоритма, будем считать значение равным нулю.
Алгоритм всегда сможет построить строку по корректному массиву значений Z-функции, если в алфавите больше одного символа.
Реализация
string buildFromZ(z : int[], alphabet : char[]):
string s = ""
int prefixLength = 0 // длина префикса, который мы записываем
int j // позиция символа в строке, который будем записывать
int newCharacter = 0 // индекс нового символа
for i = 0 to z.length - 1
// мы не пишем какой-то префикс и не будем писать новый
if z[i] = 0 and prefixLength = 0
if newCharacter < alphabet.length
s += alphabet[newCharacter]
newCharacter++
else
s += alphabet[newCharacter - 1]
// нам нужно запомнить, что мы пишем префикс
if z[i] > prefixLength
prefixLength = z[i]
j = 0
// пишем префикс
if prefixLength > 0
s += s[j]
j++
prefixLength--
return s
Доказательство корректности алгоритма
Докажем, что если нам дали корректную Z-функцию, то наш алгоритм построит строку с такой же Z-функцией.
Пусть — данная Z-функция, строку построил наш алгоритм, — массив значений Z-функции для .
Если , то и , так как (в результате алгоритма мы получаем, что , а ).
Рассмотрим значения . В этом случае является началом префикса исходной строки. Назовём подстроку, совпадающую с некоторым префиксом строки, блоком. Возможны три положения блока, относительно других блоков.
- Он не пересекает другие блоки (но может полностью включать в себя какой-то блок). Тогда , потому что наш алгоритм полностью скопирует префикс всей строки.
- Рассмотрим случай, когда мы записали часть префикса и прервались для написания нового. Новый блок корректно закончит предыдущий блок (иначе бы массив был бы некорректен, и предыдущий блок будет совпадать с префиксом, тогда .
- Если блок лежит внутри другого блока, то его массив совпадает с массивом для блока, содержащегося в префиксе строки. Проверяем корректность массива для этого блока.
Таким образом, мы рассмотрели все случаи, при которых , и показали корректность восстановления блока.
