Z-функция — различия между версиями
Iloskutov (обсуждение | вклад) (→Эффективный алгоритм поиска: заменил HTML-разметку на вики (знать бы ещё, зачем)) |
Iloskutov (обсуждение | вклад) (Стилистические правки) |
||
Строка 1: | Строка 1: | ||
{{Определение | {{Определение | ||
− | |definition = '''Z-функция''' от строки <tex>S</tex> и позиции <tex>x</tex> — это длина максимального префикса подстроки, начинающейся с позиции <tex>x</tex> в строке <tex>S</tex>, который одновременно является и префиксом всей строки <tex>S</tex>. Более формально, <tex>Z[i](s) = \max k \mid s[i\, \mathinner{\ldotp\ldotp}\, i + k] = s[0\, \mathinner{\ldotp\ldotp}\, k]</tex>. <!-- проинлайнил \twodots из clrscode --> | + | |definition = '''Z-функция''' (англ. ''Z-function'') от строки <tex>S</tex> и позиции <tex>x</tex> — это длина максимального префикса подстроки, начинающейся с позиции <tex>x</tex> в строке <tex>S</tex>, который одновременно является и префиксом всей строки <tex>S</tex>. Более формально, <tex>Z[i](s) = \max k \mid s[i\, \mathinner{\ldotp\ldotp}\, i + k] = s[0\, \mathinner{\ldotp\ldotp}\, k]</tex>. <!-- проинлайнил \twodots из clrscode --> |
Значение Z-функции от первой позиции не определено, поэтому его обычно приравнивают к нулю или к длине строки. | Значение Z-функции от первой позиции не определено, поэтому его обычно приравнивают к нулю или к длине строки. | ||
Строка 13: | Строка 13: | ||
=== Псевдокод === | === Псевдокод === | ||
− | '''int'''[] zFunction('''string''' | + | '''int'''[] zFunction(s : '''string'''): |
'''int'''[] zf = '''int'''[n] | '''int'''[] zf = '''int'''[n] | ||
− | '''for''' i = 1 | + | '''for''' i = 1 '''to''' n − 1 |
'''while''' i + zf[i] < n '''and''' s[zf[i]] == s[i + zf[i]] | '''while''' i + zf[i] < n '''and''' s[zf[i]] == s[i + zf[i]] | ||
zf[i]++ | zf[i]++ | ||
Строка 36: | Строка 36: | ||
=== Время работы === | === Время работы === | ||
− | Этот алгоритм работает за <tex>O( | + | Этот алгоритм работает за <tex>O(|S|)</tex>, так как каждая позиция пробегается не более двух раз: при попадании в диапазон от <tex>left</tex> до <tex>right</tex> и при высчитывании Z-функции простым циклом. |
=== Псевдокод === | === Псевдокод === | ||
− | '''int'''[] zFunction('''string''' | + | '''int'''[] zFunction(s : '''string'''): |
'''int'''[] zf = '''int'''[n] | '''int'''[] zf = '''int'''[n] | ||
'''int''' left = 0, right = 0 | '''int''' left = 0, right = 0 | ||
− | '''for''' i = 1 | + | '''for''' i = 1 '''to''' n − 1 |
− | zf[i] = | + | zf[i] = max(0, min(right − i, zf[i − left])) |
'''while''' i + zf[i] < n '''and''' s[zf[i]] == s[i + zf[i]] | '''while''' i + zf[i] < n '''and''' s[zf[i]] == s[i + zf[i]] | ||
zf[i]++ | zf[i]++ | ||
Строка 53: | Строка 53: | ||
== Поиск подстроки в строке с помощью Z-функции == | == Поиск подстроки в строке с помощью Z-функции == | ||
<tex>n</tex> — длина текста. <tex>m</tex> — длина образца. <br> | <tex>n</tex> — длина текста. <tex>m</tex> — длина образца. <br> | ||
− | Образуем строку < | + | Образуем строку <tt>s = pattern + # + text</tt>, где <tt>#</tt> — символ, не встречающийся ни в <tt>text</tt>, ни в <tt>pattern</tt>. Вычисляем Z-функцию от этой строки. |
− | В полученном массиве, в позициях в которых значение Z-функции равно <tex>|\texttt{ | + | В полученном массиве, в позициях в которых значение Z-функции равно <tex>|\texttt{pattern}|</tex>, по определению начинается подстрока, совпадающая с <tt>pattern</tt>. |
=== Псевдокод === | === Псевдокод === | ||
− | '''int''' substringSearch('''string''' | + | '''int''' substringSearch(text : '''string''', pattern : '''string'''): |
− | '''int'''[] zf = zFunction( | + | '''int'''[] zf = zFunction(pattern + '#' + text) |
− | '''for''' i = m + 1 | + | '''for''' i = m + 1 '''to''' n + m |
'''if''' zf[i] == m | '''if''' zf[i] == m | ||
'''return''' i | '''return''' i |
Версия 13:38, 8 июня 2015
Определение: |
Z-функция (англ. Z-function) от строки | и позиции — это длина максимального префикса подстроки, начинающейся с позиции в строке , который одновременно является и префиксом всей строки . Более формально, . Значение Z-функции от первой позиции не определено, поэтому его обычно приравнивают к нулю или к длине строки.
Примечание: далее в конспекте символы строки нумеруются с нуля.
Содержание
Тривиальный алгоритм
Простая реализация за
, где — длина строки. Для каждой позиции перебираем для неё ответ, начиная с нуля, пока не обнаружим несовпадение или не дойдем до конца строки.Псевдокод
int[] zFunction(s : string): int[] zf = int[n] for i = 1 to n − 1 while i + zf[i] < n and s[zf[i]] == s[i + zf[i]] zf[i]++ return zf
Эффективный алгоритм поиска
Z-блоком назовем подстроку с началом в позиции
Для работы алгоритма заведём две переменные: и — начало и конец Z-блока строки с максимальной позицией конца (среди всех таких Z-блоков, если их несколько, выбирается наибольший). Изначально и .
Пусть нам известны значения Z-функции от до . Найдём .
Рассмотрим два случая.
-
Просто пробегаемся по строке и сравниваем символы на позициях и .Пусть первая позиция в строке для которой не выполняется равенство , тогда это и Z-функция для позиции . Тогда . В данном случае будет определено корректное значение в силу того, что оно определяется наивно, путем сравнения с начальными символами строки.
: -
Сравним и . Если меньше, то надо просто наивно пробежаться по строке начиная с позиции и вычислить значение . Корректность в таком случае также гарантирована.Иначе мы уже знаем верное значение , так как оно равно значению . :
Время работы
Этот алгоритм работает за
, так как каждая позиция пробегается не более двух раз: при попадании в диапазон от до и при высчитывании Z-функции простым циклом.Псевдокод
int[] zFunction(s : string): int[] zf = int[n] int left = 0, right = 0 for i = 1 to n − 1 zf[i] = max(0, min(right − i, zf[i − left])) while i + zf[i] < n and s[zf[i]] == s[i + zf[i]] zf[i]++ if i + zf[i] >= right left = i right = i + zf[i] return zf
Поиск подстроки в строке с помощью Z-функции
Образуем строку s = pattern + # + text, где # — символ, не встречающийся ни в text, ни в pattern. Вычисляем Z-функцию от этой строки.
В полученном массиве, в позициях в которых значение Z-функции равно , по определению начинается подстрока, совпадающая с pattern.
Псевдокод
int substringSearch(text : string, pattern : string): int[] zf = zFunction(pattern + '#' + text) for i = m + 1 to n + m if zf[i] == m return i