Z-функция — различия между версиями

Материал из Викиконспекты
Перейти к: навигация, поиск
Строка 1: Строка 1:
 
==Определение==
 
==Определение==
'''Z-функция''' от строки <tex>S</tex> и позиции <tex>x</tex> — это длина максимального префикса подстроки, начинающейся с позиции <tex>x</tex> в строке <tex>S</tex>, который одновременно является и префиксом всей строки <tex>S</tex>. Значение <tex>Z</tex>-функции от первой позиции не определено, поэтому его обычно приравнивают к нулю или к длине строки.
+
'''Z-функция''' от строки <tex>S</tex> и позиции <tex>x</tex> — это длина максимального префикса подстроки, начинающейся с позиции <tex>x</tex> в строке <tex>S</tex>, который одновременно является и префиксом всей строки <tex>S</tex>. Значение Z-функции от первой позиции не определено, поэтому его обычно приравнивают к нулю или к длине строки.
  
 
[[Файл:Zfunc-examp.png|600px]]<br>
 
[[Файл:Zfunc-examp.png|600px]]<br>
Строка 10: Строка 10:
  
 
=== Псевдокод ===
 
=== Псевдокод ===
<tex>n = length(s)</tex>
 
 
   '''int'''[] zFunction('''string''' s)
 
   '''int'''[] zFunction('''string''' s)
 
     '''int'''[] zf = '''int'''[n]
 
     '''int'''[] zf = '''int'''[n]
     '''for''' i = 1 .. n
+
     '''for''' i = 1 .. n - 1
       '''while''' (i + zf[i] < n) '''and''' (s[zf[i]] == s[i + zf[i]])
+
       '''while''' i + zf[i] < n '''and''' s[zf[i]] == s[i + zf[i]]
 
         zf[i]++
 
         zf[i]++
 
     '''return''' zf
 
     '''return''' zf
Строка 42: Строка 41:
 
     '''int'''[] zf = '''int'''[n]
 
     '''int'''[] zf = '''int'''[n]
 
     '''int''' left = 0, right = 0
 
     '''int''' left = 0, right = 0
     '''for''' i = 0 .. n
+
     '''for''' i = 1 .. n - 1
 
       zf[i] = max(0, min(right - i, zf[i - left]))
 
       zf[i] = max(0, min(right - i, zf[i - left]))
       '''while''' (i + zf[i] < n) '''and''' (s[zf[i]] == s[i + zf[i]])
+
       '''while''' i + zf[i] < n '''and''' s[zf[i]] == s[i + zf[i]]
 
         zf[i]++
 
         zf[i]++
 
       '''if''' i + zf[i] >= right
 
       '''if''' i + zf[i] >= right
Строка 52: Строка 51:
  
 
== Поиск подстроки в строке с помощью Z-функции ==
 
== Поиск подстроки в строке с помощью Z-функции ==
Образуем строку <tex>s = needle + "\#" + source</tex>, где <tex>\#</tex> — символ, не встречающийся ни в source, ни в needle. Вычисляем Z-функцию от этой строки. В полученном массиве, в позициях в которых значение z-функции равно length(needle), по определению начинается подстрока, совпадающая с needle.  
+
<tex>n</tex> — длина текста. <tex>m</tex> — длина образца. <br>
 +
Образуем строку <tex>s = needle + \# + source</tex>, где <tex>\#</tex> — символ, не встречающийся ни в <tex>source</tex>, ни в <tex>needle</tex>. Вычисляем Z-функцию от этой строки. В полученном массиве, в позициях в которых значение Z-функции равно <tex>length(needle)</tex>, по определению начинается подстрока, совпадающая с <tex>needle</tex>.  
  
 
=== Псевдокод ===
 
=== Псевдокод ===
<tex>n = length(source)</tex> <br>
 
<tex>m = length(needle)</tex>
 
 
   '''int''' substringSearch('''string''' source, '''string''' needle)
 
   '''int''' substringSearch('''string''' source, '''string''' needle)
 
     '''int'''[] zf = zFunction(needle + '#' + source)
 
     '''int'''[] zf = zFunction(needle + '#' + source)
     '''for''' i = m+1 .. n+m+1
+
     '''for''' i = m + 1 .. n + m + 1
 
       '''if''' sf[i] == m  
 
       '''if''' sf[i] == m  
 
         '''return''' i
 
         '''return''' i

Версия 20:41, 13 июня 2014

Определение

Z-функция от строки [math]S[/math] и позиции [math]x[/math] — это длина максимального префикса подстроки, начинающейся с позиции [math]x[/math] в строке [math]S[/math], который одновременно является и префиксом всей строки [math]S[/math]. Значение Z-функции от первой позиции не определено, поэтому его обычно приравнивают к нулю или к длине строки.

Zfunc-examp.png
Примечание: далее в конспекте символы строки нумеруются с нуля.

Тривиальный алгоритм

Простая реализация за [math]O(n^2)[/math], где [math]n[/math] — длина строки. Для каждой позиции [math]i[/math] перебираем для неё ответ, начиная с нуля, пока не обнаружим несовпадение или не дойдем до конца строки.

Псевдокод

 int[] zFunction(string s)
   int[] zf = int[n]
   for i = 1 .. n - 1
     while i + zf[i] < n and s[zf[i]] == s[i + zf[i]]
       zf[i]++
   return zf

Эффективный алгоритм поиска

Z-блоком назовем подстроку с началом в позиции [math]i[/math] и длиной [math]Z[i][/math].
Для работы алгоритма заведём две переменные: [math]left[/math] и [math]right[/math] — начало и конец Z-блока строки [math]S[/math] с максимальной позицией конца [math]right[/math] (среди всех таких Z-блоков, если их несколько, выбирается наибольший). Изначально [math]left=0[/math] и [math]right=0[/math]. Пусть нам известны значения Z-функции от [math]0[/math] до [math]i-1[/math]. Найдём [math]Z[i][/math]. Рассмотрим два случая.

1) [math]i \gt right[/math]:
Просто пробегаемся по строке [math]S[/math] и сравниваем символы на позициях [math]S[i+j][/math] и [math]S[j][/math]. Пусть [math]j[/math] первая позиция в строке [math]S[/math] для которой не выполняется равенство [math]S[i+j] = S[j][/math], тогда [math]j[/math] это и Z-функция для позиции [math]i[/math]. Тогда [math]left = i, right = i + j - 1[/math]. В данном случае будет определено корректное значение [math]Z[i][/math] в силу того, что оно определяется наивно, путем сравнения с начальными символами строки.

2) [math]i \leqslant right[/math]:
Сравним [math]Z[i - left] + i[/math] и [math]right[/math]. Если [math]right[/math] меньше, то надо просто наивно пробежаться по строке начиная с позиции [math]right[/math] и вычислить значение [math]Z[i][/math]. Корректность в таком случае также гарантированна. Иначе мы уже знаем верное значение [math]Z[i][/math], так как оно равно значению [math]Z[i - left][/math].
Z-func.png

Время работы

Этот алгоритм работает за [math]O(\lvert S\rvert)[/math], так как каждая позиция пробегается не более двух раз: при попадании в диапазон от [math]left[/math] до [math]right[/math] и при высчитывании Z-функции простым циклом.

Псевдокод

[math]n = length(s)[/math]

 int[] zFunction(string s)
   int[] zf = int[n]
   int left = 0, right = 0
   for i = 1 .. n - 1
     zf[i] = max(0, min(right - i, zf[i - left]))
     while i + zf[i] < n and s[zf[i]] == s[i + zf[i]]
       zf[i]++
     if i + zf[i] >= right
       left = i
       right = i + z[i]
   return zf

Поиск подстроки в строке с помощью Z-функции

[math]n[/math] — длина текста. [math]m[/math] — длина образца.
Образуем строку [math]s = needle + \# + source[/math], где [math]\#[/math] — символ, не встречающийся ни в [math]source[/math], ни в [math]needle[/math]. Вычисляем Z-функцию от этой строки. В полученном массиве, в позициях в которых значение Z-функции равно [math]length(needle)[/math], по определению начинается подстрока, совпадающая с [math]needle[/math].

Псевдокод

 int substringSearch(string source, string needle)
   int[] zf = zFunction(needle + '#' + source)
   for i = m + 1 .. n + m + 1
     if sf[i] == m 
       return i

Источники информации