Z-функция — различия между версиями
Shersh (обсуждение | вклад) м (→Источники информации: добавлена категория) |
(Добавил построение строки) |
||
Строка 62: | Строка 62: | ||
'''if''' zf[i] == m | '''if''' zf[i] == m | ||
'''return''' i | '''return''' i | ||
+ | |||
+ | |||
+ | ==Построение строки по Z-функции== | ||
+ | ===Постановка задачи=== | ||
+ | Восстановить строку по Z-функции за <tex>O(n)</tex>, считая алфавит ограниченным. Если нам нужен неограниченный алфавит, то будем считать, то мощность алфавита равна длине получаемой строки. | ||
+ | |||
+ | ===Описание алгоритма=== | ||
+ | Пусть в массиве <tex>z</tex> хранятся значения Z-функции, в <tex>s</tex> будет записан ответ. Пойдем по массиву <tex>z</tex> слева направо. | ||
+ | |||
+ | Нужно узнать значение <tex>s[i]</tex>. Для этого посмотрим на значение <tex>z[i]</tex>: если <tex>z[i] = 0</tex>, тогда в <tex>s[i]</tex> запишем ещё не использованный символ или последний использованный символ алфавита, если мы уже использовали все символы. Если <tex>z[i] \neq 0</tex>, то нам нужно записать префикс длины <tex>z[i]</tex> строки <tex>s</tex>. Но если при посимвольном записывании этого префикса в конец строки <tex>s</tex> мы нашли такой <tex>j</tex> (индекс последнего символа строки), что <tex>z[j]</tex> больше, чем длина оставшейся незаписанной части префикса, то мы перестаём писать этот префикс и пишем префикс длиной <tex>z[j]</tex> строки <tex>s</tex>. | ||
+ | |||
+ | === Реализация === | ||
+ | '''string''' buildFromZ(z : '''int'''[]): | ||
+ | '''string''' s = "a" | ||
+ | '''int''' prefixLength = 1 <font color=green>// длина префикса, который мы записываем</font> | ||
+ | '''int''' j <font color=green>// позиция символа в строке, который будем записывать</font> | ||
+ | '''for''' i = 0 '''to''' z.length - 1 | ||
+ | <font color=green>// мы не пишем какой-то префикс и не будем писать новый</font> | ||
+ | '''if''' z[i] = 0 '''and''' prefixLength = 0 | ||
+ | s += new character <font color=green>// если нового символа нет, то берём последний использованный</font> | ||
+ | <font color=green>// нам нужно запомнить, что мы пишем префикс </font> | ||
+ | '''if''' z[i] > prefixLength '''and''' | ||
+ | prefixLength = z[i] | ||
+ | j = 0 | ||
+ | <font color=green>// пишем префикс</font> | ||
+ | '''if''' prefixLength > 0 '''and''' | ||
+ | s += s[j] | ||
+ | j++ | ||
+ | prefixLength-- | ||
+ | '''return''' s | ||
+ | |||
+ | ===Доказательство корректности алгоритма=== | ||
+ | |||
+ | Докажем, что если нам дали корректную Z-функцию, то наш алгоритм построит строку с такой же Z-функцией. | ||
+ | |||
+ | Пусть <tex>z</tex> — данная Z-функция, строку <tex>s</tex> построил наш алгоритм, <tex>q</tex> — массив значений Z-функции для <tex>s</tex>. | ||
+ | |||
+ | Очевидно, что если <tex>z[i] = 0</tex>, то и <tex>q[i] = 0</tex>, так как <tex>s[i] \ne s[0]</tex> (в результате алгоритма мы получаем, что <tex>s[i] \neq a</tex>, а <tex>s[0] = a</tex>). | ||
+ | |||
+ | Рассмотрим значения <tex>z[i] \ne 0</tex>. В этом случае мы писали префикс исходной строки, его часть или данный префикс полностью содержался в другом префиксе. | ||
+ | #Очевидно, что если мы записали префикс полностью, то <tex>q[i] = z[i]</tex>. | ||
+ | #Если префикс лежит внутри другого префикса, который мы уже пишем, то этот же префикс есть в префиксе исходной строки и Z-функции от него совпадают с Z-функциями рассматриваемого префикса (рассматривается первый случай). | ||
+ | #Рассмотрим случай, когда мы записали часть префикса и прервались для написания нового. Тогда в префиксе самой строки будет часть рассматриваемого префикса и часть нового префикса, то есть символы совпадут. Тогда <tex>q[i] = z[i]</tex>. | ||
== См. также == | == См. также == |
Версия 15:26, 27 марта 2016
Определение: |
Z-функция (англ. Z-function) от строки | и позиции — это длина максимального префикса подстроки, начинающейся с позиции в строке , который одновременно является и префиксом всей строки . Более формально, . Значение Z-функции от первой позиции не определено, поэтому его обычно приравнивают к нулю или к длине строки.
Примечание: далее в конспекте символы строки нумеруются с нуля.
Содержание
Тривиальный алгоритм
Простая реализация за
, где — длина строки. Для каждой позиции перебираем для неё ответ, начиная с нуля, пока не обнаружим несовпадение или не дойдем до конца строки.Псевдокод
int[] zFunction(s : string): int[] zf = int[n] for i = 1 to n − 1 while i + zf[i] < n and s[zf[i]] == s[i + zf[i]] zf[i]++ return zf
Эффективный алгоритм поиска
Z-блоком назовем подстроку с началом в позиции
Для работы алгоритма заведём две переменные: и — начало и конец Z-блока строки с максимальной позицией конца (среди всех таких Z-блоков, если их несколько, выбирается наибольший). Изначально и .
Пусть нам известны значения Z-функции от до . Найдём .
Рассмотрим два случая.
-
Просто пробегаемся по строке и сравниваем символы на позициях и .Пусть первая позиция в строке для которой не выполняется равенство , тогда это и Z-функция для позиции . Тогда . В данном случае будет определено корректное значение в силу того, что оно определяется наивно, путем сравнения с начальными символами строки.
: -
Сравним и . Если меньше, то надо просто наивно пробежаться по строке начиная с позиции и вычислить значение . Корректность в таком случае также гарантирована.Иначе мы уже знаем верное значение , так как оно равно значению . :
Время работы
Этот алгоритм работает за
, так как каждая позиция пробегается не более двух раз: при попадании в диапазон от до и при высчитывании Z-функции простым циклом.Псевдокод
int[] zFunction(s : string): int[] zf = int[n] int left = 0, right = 0 for i = 1 to n − 1 zf[i] = max(0, min(right − i, zf[i − left])) while i + zf[i] < n and s[zf[i]] == s[i + zf[i]] zf[i]++ if i + zf[i] >= right left = i right = i + zf[i] return zf
Поиск подстроки в строке с помощью Z-функции
Образуем строку s = pattern + # + text, где # — символ, не встречающийся ни в text, ни в pattern. Вычисляем Z-функцию от этой строки.
В полученном массиве, в позициях в которых значение Z-функции равно , по определению начинается подстрока, совпадающая с pattern.
Псевдокод
int substringSearch(text : string, pattern : string): int[] zf = zFunction(pattern + '#' + text) for i = m + 1 to n + 1 if zf[i] == m return i
Построение строки по Z-функции
Постановка задачи
Восстановить строку по Z-функции за
, считая алфавит ограниченным. Если нам нужен неограниченный алфавит, то будем считать, то мощность алфавита равна длине получаемой строки.Описание алгоритма
Пусть в массиве
хранятся значения Z-функции, в будет записан ответ. Пойдем по массиву слева направо.Нужно узнать значение
. Для этого посмотрим на значение : если , тогда в запишем ещё не использованный символ или последний использованный символ алфавита, если мы уже использовали все символы. Если , то нам нужно записать префикс длины строки . Но если при посимвольном записывании этого префикса в конец строки мы нашли такой (индекс последнего символа строки), что больше, чем длина оставшейся незаписанной части префикса, то мы перестаём писать этот префикс и пишем префикс длиной строки .Реализация
string buildFromZ(z : int[]): string s = "a" int prefixLength = 1 // длина префикса, который мы записываем int j // позиция символа в строке, который будем записывать for i = 0 to z.length - 1 // мы не пишем какой-то префикс и не будем писать новый if z[i] = 0 and prefixLength = 0 s += new character // если нового символа нет, то берём последний использованный // нам нужно запомнить, что мы пишем префикс if z[i] > prefixLength and prefixLength = z[i] j = 0 // пишем префикс if prefixLength > 0 and s += s[j] j++ prefixLength-- return s
Доказательство корректности алгоритма
Докажем, что если нам дали корректную Z-функцию, то наш алгоритм построит строку с такой же Z-функцией.
Пусть
— данная Z-функция, строку построил наш алгоритм, — массив значений Z-функции для .Очевидно, что если
, то и , так как (в результате алгоритма мы получаем, что , а ).Рассмотрим значения
. В этом случае мы писали префикс исходной строки, его часть или данный префикс полностью содержался в другом префиксе.- Очевидно, что если мы записали префикс полностью, то .
- Если префикс лежит внутри другого префикса, который мы уже пишем, то этот же префикс есть в префиксе исходной строки и Z-функции от него совпадают с Z-функциями рассматриваемого префикса (рассматривается первый случай).
- Рассмотрим случай, когда мы записали часть префикса и прервались для написания нового. Тогда в префиксе самой строки будет часть рассматриваемого префикса и часть нового префикса, то есть символы совпадут. Тогда .