Алгоритм Апостолико-Крочемора — различия между версиями

Версия 15:24, 27 апреля 2020

Алгоритм Апостолико — Крочемора (англ. Apostolico — Crochemore algorithm) — алгоритм поиска подстроки в строке.

Содержание

1 Описание алгоритма
2 Псевдокод
3 Пример
4 Асимптотика алгоритма
5 См. также
6 Источники информации

Описание алгоритма

Нам даны: [math]y[/math] — текст, [math]x[/math] — образец, [math]m = |x|[/math], [math]n = |y|[/math].

Для начала рассмотрим ситуацию, когда мы сравниваем наш образец с [math]y[j \ldots j + m - 1][/math]. Предположим, что [math]x[i] \neq y[i + j][/math] при [math]0 \lt i \lt m[/math]. Тогда и [math]a = x[i] \neq y[i + j] = b[/math]. Когда сдвиг возможен, разумно ожидать, что префикс [math]v[/math] шаблона совпадет c некоторым суффиксом [math]u[/math]. Более того, если мы хотим избежать несовпадения при сдвиге, то нужно, чтобы символ, следующий за префиксом [math]v[/math] в шаблоне, не совпадал с [math]a[/math]. Такой наибольший префикс [math]v[/math] называется помеченным бордером строки [math]u[/math].

Определение:

Помеченный бордер (англ. tagged border) строки — строка .

Введем обозначение: пусть [math]t[i][/math] — длина наибольшего бордера для [math]x[0 .. i - 1][/math] за которым следует символ [math]c \neq x[i][/math] и [math]-1[/math] если нет такого помеченного бордера, где [math]0 \lt i \leqslant m[/math] ([math]t[0] = -1[/math]). Затем, после сдвига, сравнение можно продолжить между символами [math]x[t[i]][/math] и [math]y[i + j][/math] не потеряв никакого вхождения [math]x[/math] в [math]y[/math] и избежав отступа по тексту (смотри рисунок ниже).

Примечание: [math]v[/math] — помеченный бордер строки [math]u[/math].

Пусть теперь [math]l = 0[/math], если [math]x = c ^ m[/math] и [math]c \in \Sigma[/math], иначе [math]l[/math] равно позиции первого элемента, который не равен [math]x[0][/math] ([math]x = a ^ l bu[/math], где [math]a \in \Sigma[/math], [math]b \in \Sigma[/math], [math]a \neq b[/math], [math]u \in \Sigma^*[/math]). При каждой подстановке шаблона к тексту к позиции [math]i[/math] мы проводим следующие сравнения: .

Во время поиска вхождений мы рассматриваем данную тройку [math](i, j, k)[/math] где:

шаблон сравнивается с [math]y[j, \ldots , j + m - 1][/math]
[math]0 \leqslant k \leqslant l[/math] и
[math]l \leqslant i \lt m[/math] и

(см. рисунок ниже)

Вначале инициализируем эту тройку [math](l, 0, 0)[/math]. Теперь опишем, как по уже вычисленной тройке [math](i, j, k)[/math] перейти к следующей. Возможны три случая в зависимости от значения [math]i[/math]:

[math]i = l[/math]:
Если [math]x[i] = y[i + j][/math], тогда следующая тройка [math](i + 1, j, k)[/math].

Если [math]x[i] \neq y[i + j][/math], тогда следующая тройка [math](l, j + 1, \max(0, k - 1))[/math].
[math]l \lt i \lt m [/math]
Если [math]x[i] = y[i + j][/math], тогда следующая тройка [math](i + 1, j, k)[/math].
Если [math]x[i] \neq y[i + j][/math], тогда возможны два случая в зависимости от значения [math]t[i][/math]:
- Если [math]t[i] \leqslant l[/math], тогда следующая тройка .
- Если [math]t[i] \gt l[/math], тогда следующая тройка [math](t[i], i + j - t[i], l)[/math].
[math]i = m[/math]:
Если [math] k \lt l [/math] и [math]x[k] = y[j + k][/math], тогда следующая тройка [math](i, j, k + 1)[/math].

Иначе либо [math]k \lt l[/math] и [math]x[k] \ne y[l + k][/math], либо [math]k = l[/math]. Если [math]k = l[/math], то вхождение [math]x[/math] в [math]y[/math] найдено. В обоих случаях следующая тройка вычисляется, как в случае [math]l \lt i \lt m [/math].

Псевдокод

void getT(string x, int t[]): //функция, вычисляющая массив [math]t[/math] для строки [math]x[/math]
   int i = 0
   int j = t[0] = -1
   while i < x.size 
      while j > -1 and x[i] [math]\neq[/math] x[j]
         j = t[j]
      i++
      j++
      if i < m and x[i] == x[j]
         t[i] = t[j]
      else
         t[i] = j
   
vector aG(string x, string y): //[math]x[/math] — образец, [math]y[/math] — текст
   int l
   int t[x.size + 1]
   vector v

   //этап предпосчета
   getT(x, t)
   //вычисление значения [math]l[/math] 
   for l = 1; x[l - 1] == x[l]; l++
   if l == x.size
      l = 0

   //этап поиска
   int i = l
   int j = 0
   int k = 0
   while j [math]\leqslant[/math] y.size - x.size 
      while i < x.size and x[i] == y[i + j]  // если [math]x[i] = y[i + j][/math]
         ++i                                 // тогда следующая тройка [math](i + 1, j, k)[/math] 
      if i [math]\geqslant[/math] x.size 
         while k < l and x[k] == y[j + k] // если [math]k \lt  l[/math] и [math]x[k] = y[j + k][/math]
            ++k                           // тогда следующая тройка [math](i, j, k + 1)[/math] 
         if k [math]\geqslant[/math] l           // если [math]k = l[/math] 
            v.pushBack(j)   // тогда найдена подстрока в позиции j
      j += i - t[i]         // вычисляем новый сдвиг
      if i == l
         k = max(0, k - 1) // если [math]i = l[/math] и [math]x[i] \neq y[i + j][/math], тогда следующая тройка [math](l, j + 1, \max(0, k - 1))[/math]
      else if t[i] [math]\leqslant[/math] l      // если [math]t[i] \leqslant l[/math], тогда следующая тройка [math](l, i + j - t[i], \max(0, t[i]))[/math]
         k = max(0, t[i])
         i = l
      else              // если [math]t[i] \gt  l[/math], тогда следующая тройка [math](t[i], i + j - t[i], l)[/math]
         k = l
         i = t[i]
   return v

Пример

Изображение	[math](i, j, k)[/math]	Описание
	[math](1, 0, 0)[/math]	Подставив шаблон к позиции [math]0[/math] получим, что [math]x[1] \neq y[1][/math]. Вычислив сдвиг, получим [math]j = 1[/math].
	[math](1, 1, 0)[/math]	Подставив шаблон к позиции [math]1[/math] получим, что . Следовательно, [math]x[/math] подстрока [math]y[/math] в позиции [math]1[/math]. Вычислив сдвиг, получим [math]j = 4[/math].
	[math](1, 4, 1)[/math]	Подставив шаблон к позиции [math]4[/math] получим, что [math]x[1] \neq y[5][/math]. Вычислив сдвиг, получим [math]j = 5[/math].
	[math](1, 5, 0)[/math]	Подставив шаблон к позиции [math]5[/math] получим, что [math]x[1] \neq y[6][/math]. Вычислив сдвиг, получим [math]j = 6[/math].
	[math](1, 6, 0)[/math]	Подставив шаблон к позиции [math]6[/math] получим, что [math]x[1] \neq y[7][/math]. Вычислив сдвиг, получим [math]j = 7[/math].
	[math](1, 7, 0)[/math]	Подставив шаблон к позиции [math]7[/math] получим, что [math]x[1] \neq y[8][/math]. Вычислив сдвиг, получим [math]j = 8[/math].
	[math](1, 8, 0)[/math]	Подставив шаблон к позиции [math]8[/math] получим, что . Следовательно, [math]x[/math] подстрока [math]y[/math] в позиции [math]8[/math].

Асимптотика алгоритма

Этап предподсчета, а именно вычисление массива [math]t[/math] и переменной [math]l[/math] занимает [math]O(m)[/math] времени и константное количество памяти. Этап поиска занимает [math]O(n)[/math] времени, более того, алгоритм в худшем случае выполнит [math]\dfrac{3}{2} n[/math] сравнений.

См. также

Источники информации

www-igm.univ-mlv.fr — Apostolico-Crochemore algorithm

@@ Строка 58: / Строка 58: @@
         i++
         j++
-        '''if''' x[i] == x[j]
+        '''if''' i < m '''and''' x[i] == x[j]
            t[i] = t[j]
         '''else'''
@@ Строка 65: / Строка 65: @@
   '''vector''' aG('''string''' x, '''string''' y): <font color=green>//<tex>x</tex> {{---}} образец, <tex>y</tex> {{---}} текст</font>
      '''int''' l
-     '''int''' t[x.size]
+     '''int''' t[x.size + 1]
      '''vector''' v
@@ Строка 90: / Строка 90: @@
         '''if''' i == l
            k = max(0, k - 1) <font color=green>// если <tex>i = l</tex> и <tex>x[i] \neq y[i + j]</tex>, тогда следующая тройка <tex>(l, j + 1, \max(0, k - 1))</tex></font>
-        '''else'''
+        '''else if''' t[i] <tex>\leqslant</tex> l      <font color=green>// если <tex>t[i] \leqslant l</tex>, тогда следующая тройка <tex>(l, i + j - t[i], \max(0, t[i]))</tex></font>
-          '''if''' t[i] <tex>\leqslant</tex> l      <font color=green>// если <tex>t[i] \leqslant l</tex>, тогда следующая тройка <tex>(l, i + j - t[i], \max(0, t[i]))</tex></font>
+          k = max(0, t[i])
-             k = max(0, t[i])
+          i = l
-             i = l
+       '''else'''              <font color=green>// если <tex>t[i] > l</tex>, тогда следующая тройка <tex>(t[i], i + j - t[i], l)</tex></font>
-          '''else'''              <font color=green>// если <tex>t[i] > l</tex>, тогда следующая тройка <tex>(t[i], i + j - t[i], l)</tex></font>
+          k = l
-             k = l
+          i = t[i]
-             i = t[i]
      '''return''' v

Алгоритм Апостолико-Крочемора — различия между версиями

Версия 15:24, 27 апреля 2020

Содержание

Описание алгоритма

Псевдокод

Пример

Асимптотика алгоритма

См. также

Источники информации

Навигация

Персональные инструменты

Пространства имён

Варианты

Просмотры

Ещё

Поиск

Навигация

Инструменты