Z-функция — различия между версиями
Firespace (обсуждение | вклад) |
Firespace (обсуждение | вклад) |
||
Строка 1: | Строка 1: | ||
==Определение== | ==Определение== | ||
− | '''Z-функция''' от строки <tex>S</tex> и позиции <tex>x</tex> — это длина максимального префикса подстроки, начинающейся с позиции <tex>x</tex> в строке <tex>S</tex>, который одновременно является и префиксом всей строки <tex>S</tex>. Значение | + | '''Z-функция''' от строки <tex>S</tex> и позиции <tex>x</tex> — это длина максимального префикса подстроки, начинающейся с позиции <tex>x</tex> в строке <tex>S</tex>, который одновременно является и префиксом всей строки <tex>S</tex>. Значение Z-функции от первой позиции не определено, поэтому его обычно приравнивают к нулю или к длине строки. |
[[Файл:Zfunc-examp.png|600px]]<br> | [[Файл:Zfunc-examp.png|600px]]<br> | ||
Строка 10: | Строка 10: | ||
=== Псевдокод === | === Псевдокод === | ||
− | |||
'''int'''[] zFunction('''string''' s) | '''int'''[] zFunction('''string''' s) | ||
'''int'''[] zf = '''int'''[n] | '''int'''[] zf = '''int'''[n] | ||
− | '''for''' i = 1 .. n | + | '''for''' i = 1 .. n - 1 |
− | '''while''' | + | '''while''' i + zf[i] < n '''and''' s[zf[i]] == s[i + zf[i]] |
zf[i]++ | zf[i]++ | ||
'''return''' zf | '''return''' zf | ||
Строка 42: | Строка 41: | ||
'''int'''[] zf = '''int'''[n] | '''int'''[] zf = '''int'''[n] | ||
'''int''' left = 0, right = 0 | '''int''' left = 0, right = 0 | ||
− | '''for''' i = | + | '''for''' i = 1 .. n - 1 |
zf[i] = max(0, min(right - i, zf[i - left])) | zf[i] = max(0, min(right - i, zf[i - left])) | ||
− | '''while''' | + | '''while''' i + zf[i] < n '''and''' s[zf[i]] == s[i + zf[i]] |
zf[i]++ | zf[i]++ | ||
'''if''' i + zf[i] >= right | '''if''' i + zf[i] >= right | ||
Строка 52: | Строка 51: | ||
== Поиск подстроки в строке с помощью Z-функции == | == Поиск подстроки в строке с помощью Z-функции == | ||
− | Образуем строку <tex>s = needle + | + | <tex>n</tex> — длина текста. <tex>m</tex> — длина образца. <br> |
+ | Образуем строку <tex>s = needle + \# + source</tex>, где <tex>\#</tex> — символ, не встречающийся ни в <tex>source</tex>, ни в <tex>needle</tex>. Вычисляем Z-функцию от этой строки. В полученном массиве, в позициях в которых значение Z-функции равно <tex>length(needle)</tex>, по определению начинается подстрока, совпадающая с <tex>needle</tex>. | ||
=== Псевдокод === | === Псевдокод === | ||
− | |||
− | |||
'''int''' substringSearch('''string''' source, '''string''' needle) | '''int''' substringSearch('''string''' source, '''string''' needle) | ||
'''int'''[] zf = zFunction(needle + '#' + source) | '''int'''[] zf = zFunction(needle + '#' + source) | ||
− | '''for''' i = m+1 .. n+m+1 | + | '''for''' i = m + 1 .. n + m + 1 |
'''if''' sf[i] == m | '''if''' sf[i] == m | ||
'''return''' i | '''return''' i |
Версия 20:41, 13 июня 2014
Содержание
Определение
Z-функция от строки
и позиции — это длина максимального префикса подстроки, начинающейся с позиции в строке , который одновременно является и префиксом всей строки . Значение Z-функции от первой позиции не определено, поэтому его обычно приравнивают к нулю или к длине строки.
Примечание: далее в конспекте символы строки нумеруются с нуля.
Тривиальный алгоритм
Простая реализация за
, где — длина строки. Для каждой позиции перебираем для неё ответ, начиная с нуля, пока не обнаружим несовпадение или не дойдем до конца строки.Псевдокод
int[] zFunction(string s) int[] zf = int[n] for i = 1 .. n - 1 while i + zf[i] < n and s[zf[i]] == s[i + zf[i]] zf[i]++ return zf
Эффективный алгоритм поиска
Z-блоком назовем подстроку с началом в позиции
Для работы алгоритма заведём две переменные: и — начало и конец Z-блока строки с максимальной позицией конца (среди всех таких Z-блоков, если их несколько, выбирается наибольший). Изначально и .
Пусть нам известны значения Z-функции от до . Найдём .
Рассмотрим два случая.
1)
Просто пробегаемся по строке и сравниваем символы на позициях и .
Пусть первая позиция в строке для которой не выполняется равенство , тогда это и Z-функция для позиции . Тогда . В данном случае будет определено корректное значение в силу того, что оно определяется наивно, путем сравнения с начальными символами строки.
2)
Сравним и . Если меньше, то надо просто наивно пробежаться по строке начиная с позиции и вычислить значение . Корректность в таком случае также гарантированна.
Иначе мы уже знаем верное значение , так как оно равно значению .
Время работы
Этот алгоритм работает за
, так как каждая позиция пробегается не более двух раз: при попадании в диапазон от до и при высчитывании Z-функции простым циклом.Псевдокод
int[] zFunction(string s) int[] zf = int[n] int left = 0, right = 0 for i = 1 .. n - 1 zf[i] = max(0, min(right - i, zf[i - left])) while i + zf[i] < n and s[zf[i]] == s[i + zf[i]] zf[i]++ if i + zf[i] >= right left = i right = i + z[i] return zf
Поиск подстроки в строке с помощью Z-функции
Образуем строку , где — символ, не встречающийся ни в , ни в . Вычисляем Z-функцию от этой строки. В полученном массиве, в позициях в которых значение Z-функции равно , по определению начинается подстрока, совпадающая с .
Псевдокод
int substringSearch(string source, string needle) int[] zf = zFunction(needle + '#' + source) for i = m + 1 .. n + m + 1 if sf[i] == m return i