Z-функция — различия между версиями

Материал из Викиконспекты
Перейти к: навигация, поиск
(Алгоритм поиска)
Строка 1: Строка 1:
 
==Определение==
 
==Определение==
 
Z-функция от строки <tex>S</tex> и позиции <tex>x</tex> — это длина максимального префикса подстроки, начинающейся с позиции <tex>x</tex> в строке <tex>S</tex>, который одновременно является и префиксом всей строки <tex>S</tex>. Значение <tex>Z</tex>-функции от первой позиции не определено, поэтому его обычно приравнивают к нулю или к длине строки.
 
Z-функция от строки <tex>S</tex> и позиции <tex>x</tex> — это длина максимального префикса подстроки, начинающейся с позиции <tex>x</tex> в строке <tex>S</tex>, который одновременно является и префиксом всей строки <tex>S</tex>. Значение <tex>Z</tex>-функции от первой позиции не определено, поэтому его обычно приравнивают к нулю или к длине строки.
 +
 
[[Файл:Zfunc-examp.png|600px]]<br>
 
[[Файл:Zfunc-examp.png|600px]]<br>
 
'''Примечание:''' далее в конспекте символы строки нумеруются с нуля.
 
'''Примечание:''' далее в конспекте символы строки нумеруются с нуля.
  
==Алгоритм поиска==
+
== Тривиальный алгоритм ==
 +
 
 +
Простая реализация за <tex>O(n^2)</tex>. Для каждой позиции i перебираем для неё ответ, начиная с нуля, пока не обнаружим несовпадение или не дойдем до конца строки.
 +
 
 +
=== Псевдокод ===
 +
  '''int'''[] z_function('''string''' s)
 +
    '''int'''[] zf
 +
    '''for''' i = 1 .. '''length'''(s)
 +
      '''while''' (i + zf[i] < '''length'''(s)) && (s[zf[i]] == s[i + zf[i]])
 +
        zf[i]++
 +
    '''return''' zf
 +
 
 +
== Эффективный алгоритм поиска ==
 +
 
 
Z-блоком назовем подстроку с началом в позиции <tex>i</tex> и длиной <tex>Z[i]</tex>.<br>
 
Z-блоком назовем подстроку с началом в позиции <tex>i</tex> и длиной <tex>Z[i]</tex>.<br>
 
Для работы алгоритма заведём две переменные: <tex>left</tex> и <tex>right</tex> — начало и конец Z-блока строки <tex>S</tex> с максимальной позицией конца <tex>right</tex> (среди всех таких Z-блоков, если их несколько, выбирается наибольший). Изначально <tex>left=0</tex> и <tex>right=0</tex>.
 
Для работы алгоритма заведём две переменные: <tex>left</tex> и <tex>right</tex> — начало и конец Z-блока строки <tex>S</tex> с максимальной позицией конца <tex>right</tex> (среди всех таких Z-блоков, если их несколько, выбирается наибольший). Изначально <tex>left=0</tex> и <tex>right=0</tex>.
Строка 10: Строка 24:
 
Рассмотрим два случая.
 
Рассмотрим два случая.
  
<br>
 
 
1) <tex>i > right</tex>:<br>
 
1) <tex>i > right</tex>:<br>
 
Просто пробегаемся по строке <tex>S</tex> и сравниваем символы на позициях <tex>S[i+j]</tex> и <tex>S[j]</tex>.
 
Просто пробегаемся по строке <tex>S</tex> и сравниваем символы на позициях <tex>S[i+j]</tex> и <tex>S[j]</tex>.
 
Пусть <tex>j</tex> первая позиция в строке <tex>S</tex> для которой не выполняется равенство <tex>S[i+j] == S[j]</tex>, тогда <tex>j</tex> это и Z-функция для позиции <tex>i</tex>. Тогда <tex>left = i, right = i + j - 1</tex>. В данном случае будет определено корректное значение <tex>Z[i]</tex> в силу того, что оно определяется наивно, путем сравнения с начальными символами строки.
 
Пусть <tex>j</tex> первая позиция в строке <tex>S</tex> для которой не выполняется равенство <tex>S[i+j] == S[j]</tex>, тогда <tex>j</tex> это и Z-функция для позиции <tex>i</tex>. Тогда <tex>left = i, right = i + j - 1</tex>. В данном случае будет определено корректное значение <tex>Z[i]</tex> в силу того, что оно определяется наивно, путем сравнения с начальными символами строки.
  
<br>
 
 
2) <tex>i \le right</tex>:<br>
 
2) <tex>i \le right</tex>:<br>
 
Сравним <tex>Z[i - left] + i</tex> и <tex>right</tex>. Если <tex>right</tex> меньше, то надо просто наивно пробежаться по строке начиная с позиции <tex>right</tex> и вычислить значение <tex>Z[i]</tex>. Корректность в таком случае также гарантированна.
 
Сравним <tex>Z[i - left] + i</tex> и <tex>right</tex>. Если <tex>right</tex> меньше, то надо просто наивно пробежаться по строке начиная с позиции <tex>right</tex> и вычислить значение <tex>Z[i]</tex>. Корректность в таком случае также гарантированна.
Строка 21: Строка 33:
 
[[Файл:z-func.png]]
 
[[Файл:z-func.png]]
  
==Время работы==
+
=== Время работы ===
 
Этот алгоритм работает за <tex>O(\lvert S\rvert)</tex>, так как каждая позиция пробегается не более двух раз: при попадании в диапазон от <tex>left</tex> до <tex>right</tex> и при высчитывании <tex>Z</tex>-функции простым циклом.
 
Этот алгоритм работает за <tex>O(\lvert S\rvert)</tex>, так как каждая позиция пробегается не более двух раз: при попадании в диапазон от <tex>left</tex> до <tex>right</tex> и при высчитывании <tex>Z</tex>-функции простым циклом.
  
==Псевдокод==
+
=== Псевдокод ===
'''Zfunction'''(p)  
+
  '''int'''[] '''z_function'''('''string''' s)
     answer[0] = 0
+
     '''int'''[] zf
     left = 0
+
     '''int''' left = 0, right = 0
    right = 0
+
     '''for''' i = 0 .. '''length'''(s)
     '''for''' (i = 1..(n - 1))
+
      zf[i] = '''max'''(0, '''min'''(right - i, zf[i - left]))
      '''if''' (i > right)
+
      '''while''' (i + zf[i] < '''length'''(s))) && (s[zf[i]] == s[i + zf[i]])
          j = 0
+
        zf[i]++
          '''while''' (i + j < n && p[i + j] == p[j])
+
      '''if''' i + zf[i] >= right
            j++
+
        left = i
          answer[i] = j
+
        right = i + z[i]
          left = i
+
     '''return''' zf
          right = i + j - 1
 
      '''else if''' (answer[i - left] < right - i + 1)
 
          answer[i] = answer[i - left]
 
      '''else'''  
 
          j = 1
 
          '''while''' (j + right < n && p[j + right - i] == p[right + j])
 
            j++
 
          answer[i] = right + j - i
 
          left = i
 
          right = right + j - 1
 
     '''return''' answer
 
  
 
== Источники ==
 
== Источники ==
 
[http://habrahabr.ru/post/113266/ Поиск подстроки и смежные вопросы — Хабр]<br>
 
[http://habrahabr.ru/post/113266/ Поиск подстроки и смежные вопросы — Хабр]<br>
[http://ru.wikipedia.org/wiki/Z-%D1%84%D1%83%D0%BD%D0%BA%D1%86%D0%B8%D1%8F Z-функция — Википедия]
+
[[wikipedia:ru:Z-функция | Википедия — Z-функция]]
 +
 
 +
[[Категория: Дискретная математика и алгоритмы]]
 +
[[Категория: Поиск подстроки в строке]]

Версия 16:29, 13 июня 2014

Определение

Z-функция от строки [math]S[/math] и позиции [math]x[/math] — это длина максимального префикса подстроки, начинающейся с позиции [math]x[/math] в строке [math]S[/math], который одновременно является и префиксом всей строки [math]S[/math]. Значение [math]Z[/math]-функции от первой позиции не определено, поэтому его обычно приравнивают к нулю или к длине строки.

Zfunc-examp.png
Примечание: далее в конспекте символы строки нумеруются с нуля.

Тривиальный алгоритм

Простая реализация за [math]O(n^2)[/math]. Для каждой позиции i перебираем для неё ответ, начиная с нуля, пока не обнаружим несовпадение или не дойдем до конца строки.

Псевдокод

 int[] z_function(string s)
   int[] zf
   for i = 1 .. length(s)
     while (i + zf[i] < length(s)) && (s[zf[i]] == s[i + zf[i]])
       zf[i]++
   return zf

Эффективный алгоритм поиска

Z-блоком назовем подстроку с началом в позиции [math]i[/math] и длиной [math]Z[i][/math].
Для работы алгоритма заведём две переменные: [math]left[/math] и [math]right[/math] — начало и конец Z-блока строки [math]S[/math] с максимальной позицией конца [math]right[/math] (среди всех таких Z-блоков, если их несколько, выбирается наибольший). Изначально [math]left=0[/math] и [math]right=0[/math]. Пусть нам известны значения Z-функции от [math]0[/math] до [math]i-1[/math]. Найдём [math]Z[i][/math]. Рассмотрим два случая.

1) [math]i \gt right[/math]:
Просто пробегаемся по строке [math]S[/math] и сравниваем символы на позициях [math]S[i+j][/math] и [math]S[j][/math]. Пусть [math]j[/math] первая позиция в строке [math]S[/math] для которой не выполняется равенство [math]S[i+j] == S[j][/math], тогда [math]j[/math] это и Z-функция для позиции [math]i[/math]. Тогда [math]left = i, right = i + j - 1[/math]. В данном случае будет определено корректное значение [math]Z[i][/math] в силу того, что оно определяется наивно, путем сравнения с начальными символами строки.

2) [math]i \le right[/math]:
Сравним [math]Z[i - left] + i[/math] и [math]right[/math]. Если [math]right[/math] меньше, то надо просто наивно пробежаться по строке начиная с позиции [math]right[/math] и вычислить значение [math]Z[i][/math]. Корректность в таком случае также гарантированна. Иначе мы уже знаем верное значение [math]Z[i][/math], так как оно равно значению [math]Z[i - left][/math].
Z-func.png

Время работы

Этот алгоритм работает за [math]O(\lvert S\rvert)[/math], так как каждая позиция пробегается не более двух раз: при попадании в диапазон от [math]left[/math] до [math]right[/math] и при высчитывании [math]Z[/math]-функции простым циклом.

Псевдокод

 int[] z_function(string s)
   int[] zf
   int left = 0, right = 0
   for i = 0 .. length(s)
     zf[i] = max(0, min(right - i, zf[i - left]))
     while (i + zf[i] < length(s))) && (s[zf[i]] == s[i + zf[i]])
       zf[i]++
     if i + zf[i] >= right
       left = i
       right = i + z[i]
   return zf

Источники

Поиск подстроки и смежные вопросы — Хабр
Википедия — Z-функция