Z-функция — различия между версиями
Glukos (обсуждение | вклад) (→Алгоритм поиска) |
Firespace (обсуждение | вклад) |
||
Строка 1: | Строка 1: | ||
==Определение== | ==Определение== | ||
Z-функция от строки <tex>S</tex> и позиции <tex>x</tex> — это длина максимального префикса подстроки, начинающейся с позиции <tex>x</tex> в строке <tex>S</tex>, который одновременно является и префиксом всей строки <tex>S</tex>. Значение <tex>Z</tex>-функции от первой позиции не определено, поэтому его обычно приравнивают к нулю или к длине строки. | Z-функция от строки <tex>S</tex> и позиции <tex>x</tex> — это длина максимального префикса подстроки, начинающейся с позиции <tex>x</tex> в строке <tex>S</tex>, который одновременно является и префиксом всей строки <tex>S</tex>. Значение <tex>Z</tex>-функции от первой позиции не определено, поэтому его обычно приравнивают к нулю или к длине строки. | ||
+ | |||
[[Файл:Zfunc-examp.png|600px]]<br> | [[Файл:Zfunc-examp.png|600px]]<br> | ||
'''Примечание:''' далее в конспекте символы строки нумеруются с нуля. | '''Примечание:''' далее в конспекте символы строки нумеруются с нуля. | ||
− | == | + | == Тривиальный алгоритм == |
+ | |||
+ | Простая реализация за <tex>O(n^2)</tex>. Для каждой позиции i перебираем для неё ответ, начиная с нуля, пока не обнаружим несовпадение или не дойдем до конца строки. | ||
+ | |||
+ | === Псевдокод === | ||
+ | '''int'''[] z_function('''string''' s) | ||
+ | '''int'''[] zf | ||
+ | '''for''' i = 1 .. '''length'''(s) | ||
+ | '''while''' (i + zf[i] < '''length'''(s)) && (s[zf[i]] == s[i + zf[i]]) | ||
+ | zf[i]++ | ||
+ | '''return''' zf | ||
+ | |||
+ | == Эффективный алгоритм поиска == | ||
+ | |||
Z-блоком назовем подстроку с началом в позиции <tex>i</tex> и длиной <tex>Z[i]</tex>.<br> | Z-блоком назовем подстроку с началом в позиции <tex>i</tex> и длиной <tex>Z[i]</tex>.<br> | ||
Для работы алгоритма заведём две переменные: <tex>left</tex> и <tex>right</tex> — начало и конец Z-блока строки <tex>S</tex> с максимальной позицией конца <tex>right</tex> (среди всех таких Z-блоков, если их несколько, выбирается наибольший). Изначально <tex>left=0</tex> и <tex>right=0</tex>. | Для работы алгоритма заведём две переменные: <tex>left</tex> и <tex>right</tex> — начало и конец Z-блока строки <tex>S</tex> с максимальной позицией конца <tex>right</tex> (среди всех таких Z-блоков, если их несколько, выбирается наибольший). Изначально <tex>left=0</tex> и <tex>right=0</tex>. | ||
Строка 10: | Строка 24: | ||
Рассмотрим два случая. | Рассмотрим два случая. | ||
− | |||
1) <tex>i > right</tex>:<br> | 1) <tex>i > right</tex>:<br> | ||
Просто пробегаемся по строке <tex>S</tex> и сравниваем символы на позициях <tex>S[i+j]</tex> и <tex>S[j]</tex>. | Просто пробегаемся по строке <tex>S</tex> и сравниваем символы на позициях <tex>S[i+j]</tex> и <tex>S[j]</tex>. | ||
Пусть <tex>j</tex> первая позиция в строке <tex>S</tex> для которой не выполняется равенство <tex>S[i+j] == S[j]</tex>, тогда <tex>j</tex> это и Z-функция для позиции <tex>i</tex>. Тогда <tex>left = i, right = i + j - 1</tex>. В данном случае будет определено корректное значение <tex>Z[i]</tex> в силу того, что оно определяется наивно, путем сравнения с начальными символами строки. | Пусть <tex>j</tex> первая позиция в строке <tex>S</tex> для которой не выполняется равенство <tex>S[i+j] == S[j]</tex>, тогда <tex>j</tex> это и Z-функция для позиции <tex>i</tex>. Тогда <tex>left = i, right = i + j - 1</tex>. В данном случае будет определено корректное значение <tex>Z[i]</tex> в силу того, что оно определяется наивно, путем сравнения с начальными символами строки. | ||
− | |||
2) <tex>i \le right</tex>:<br> | 2) <tex>i \le right</tex>:<br> | ||
Сравним <tex>Z[i - left] + i</tex> и <tex>right</tex>. Если <tex>right</tex> меньше, то надо просто наивно пробежаться по строке начиная с позиции <tex>right</tex> и вычислить значение <tex>Z[i]</tex>. Корректность в таком случае также гарантированна. | Сравним <tex>Z[i - left] + i</tex> и <tex>right</tex>. Если <tex>right</tex> меньше, то надо просто наивно пробежаться по строке начиная с позиции <tex>right</tex> и вычислить значение <tex>Z[i]</tex>. Корректность в таком случае также гарантированна. | ||
Строка 21: | Строка 33: | ||
[[Файл:z-func.png]] | [[Файл:z-func.png]] | ||
− | ==Время работы== | + | === Время работы === |
Этот алгоритм работает за <tex>O(\lvert S\rvert)</tex>, так как каждая позиция пробегается не более двух раз: при попадании в диапазон от <tex>left</tex> до <tex>right</tex> и при высчитывании <tex>Z</tex>-функции простым циклом. | Этот алгоритм работает за <tex>O(\lvert S\rvert)</tex>, так как каждая позиция пробегается не более двух раз: при попадании в диапазон от <tex>left</tex> до <tex>right</tex> и при высчитывании <tex>Z</tex>-функции простым циклом. | ||
− | ==Псевдокод== | + | === Псевдокод === |
− | + | '''int'''[] '''z_function'''('''string''' s) | |
− | + | '''int'''[] zf | |
− | left = 0 | + | '''int''' left = 0, right = 0 |
− | + | '''for''' i = 0 .. '''length'''(s) | |
− | '''for''' | + | zf[i] = '''max'''(0, '''min'''(right - i, zf[i - left])) |
− | + | '''while''' (i + zf[i] < '''length'''(s))) && (s[zf[i]] == s[i + zf[i]]) | |
− | + | zf[i]++ | |
− | + | '''if''' i + zf[i] >= right | |
− | + | left = i | |
− | + | right = i + z[i] | |
− | + | '''return''' zf | |
− | |||
− | |||
− | |||
− | |||
− | |||
− | |||
− | |||
− | |||
− | |||
− | |||
− | '''return''' | ||
== Источники == | == Источники == | ||
[http://habrahabr.ru/post/113266/ Поиск подстроки и смежные вопросы — Хабр]<br> | [http://habrahabr.ru/post/113266/ Поиск подстроки и смежные вопросы — Хабр]<br> | ||
− | [ | + | [[wikipedia:ru:Z-функция | Википедия — Z-функция]] |
+ | |||
+ | [[Категория: Дискретная математика и алгоритмы]] | ||
+ | [[Категория: Поиск подстроки в строке]] |
Версия 16:29, 13 июня 2014
Содержание
Определение
Z-функция от строки
и позиции — это длина максимального префикса подстроки, начинающейся с позиции в строке , который одновременно является и префиксом всей строки . Значение -функции от первой позиции не определено, поэтому его обычно приравнивают к нулю или к длине строки.
Примечание: далее в конспекте символы строки нумеруются с нуля.
Тривиальный алгоритм
Простая реализация за
. Для каждой позиции i перебираем для неё ответ, начиная с нуля, пока не обнаружим несовпадение или не дойдем до конца строки.Псевдокод
int[] z_function(string s) int[] zf for i = 1 .. length(s) while (i + zf[i] < length(s)) && (s[zf[i]] == s[i + zf[i]]) zf[i]++ return zf
Эффективный алгоритм поиска
Z-блоком назовем подстроку с началом в позиции
Для работы алгоритма заведём две переменные: и — начало и конец Z-блока строки с максимальной позицией конца (среди всех таких Z-блоков, если их несколько, выбирается наибольший). Изначально и .
Пусть нам известны значения Z-функции от до . Найдём .
Рассмотрим два случая.
1)
Просто пробегаемся по строке и сравниваем символы на позициях и .
Пусть первая позиция в строке для которой не выполняется равенство , тогда это и Z-функция для позиции . Тогда . В данном случае будет определено корректное значение в силу того, что оно определяется наивно, путем сравнения с начальными символами строки.
2)
Сравним и . Если меньше, то надо просто наивно пробежаться по строке начиная с позиции и вычислить значение . Корректность в таком случае также гарантированна.
Иначе мы уже знаем верное значение , так как оно равно значению .
Время работы
Этот алгоритм работает за
, так как каждая позиция пробегается не более двух раз: при попадании в диапазон от до и при высчитывании -функции простым циклом.Псевдокод
int[] z_function(string s) int[] zf int left = 0, right = 0 for i = 0 .. length(s) zf[i] = max(0, min(right - i, zf[i - left])) while (i + zf[i] < length(s))) && (s[zf[i]] == s[i + zf[i]]) zf[i]++ if i + zf[i] >= right left = i right = i + z[i] return zf
Источники
Поиск подстроки и смежные вопросы — Хабр
Википедия — Z-функция