Турбо-алгоритм Бойера-Мура — различия между версиями

Версия 23:13, 2 мая 2016

Турбо-алгоритм Бойера-Мура (англ. Turbo Boyer-Moore) является улучшением алгоритма Бойера-Мура. Турбо-алгоритм, разработанный группой учёных во главе с М.Крочемором, предлагает другой подход к коротким алфавитам и заодно решает вторую проблему — квадратичную сложность в худшем случае.

Алгоритм

Турбо-алгоритм Бойера-Мура не нуждается в дополнительном препроцессинге и требует только постоянную дополнительную память относительно оригинального алгоритма Бойера-Мура. Он состоит в запоминании сегмента текста, который соответствует суффиксу шаблона во время последней попытки (и только тогда, когда сдвиг хорошего суффикса был выполнен). Эта методика представляет два преимущества:

Можно перепрыгнуть через этот сегмент.
Она может позволить выполнение «турбо-сдвига».

Турбо-сдвиг может произойти, если мы обнаружим, что суффикс образца, который сходится с текстом, короче, чем тот, который был запомнен ранее.

Определение турбо-сдвига

Пусть — запомненный сегмент, а — cуффикс, совпавший во время текущей попытки, такой что — суффикс . Тогда — суффикс , два символа и встречаются на расстоянии в тексте, и суффикс длины имеет период длины , а значит не может перекрыть оба появления символов и в тексте. Наименьший возможный сдвиг имеет длину (его мы и называем турбо-сдвигом).

Применение турбо-сдвига в случае |v| < |u|

При [math]|v| \lt |u|[/math], если длина сдвига плохого символа больше, чем длина сдвига хорошего суффикса и длины турбо-сдвига, то длина фактического сдвига должна быть больше или равна [math]|u| + 1[/math]. Действительно, в этом случае два символа [math]c[/math] и [math]d[/math] различны, так как мы предположили, что предыдущий сдвиг был сдвигом хороший суффикса. Тогда сдвиг больший, чем турбо-сдвиг, но меньший, чем [math]|u| +1[/math] будет выравнивать [math]c[/math] и [math]d[/math] с таким же символом в [math]v[/math], в этом случае длина фактического сдвига должна быть по крайней мере равен [math]|u| +1[/math].

Нельзя совместить символы [math]c \neq d[/math] с одним и тем же символом [math]v[/math].

Описание алгоритма

В алгоритм Бойера-Мура дополнительно добавится запоминание длины [math]|u|[/math] сегмента текста, который соответствует суффиксу шаблона во время последней попытки, который мы не будем лишний раз рассматривать при сравнении суффиксов двух подстрок, а также запоминании размера сдвига [math]shift[/math], который мы совершили. Вычислять его будем следующим образом:

Если текущем шаге у нас подстрока совпала с шаблоном [math]x[/math], то [math]shift = bmGs[0][/math] ([math]bmGs[0][/math] равен периоду шаблона [math]x[/math]), [math]|u| = m - shift[/math].
Иначе возможны два случая:
- Если сдвиг хорошего суффикса не меньше турбо-сдвига и сдвига плохого символа, тогда [math]shift = bmGs[j+1][/math], [math]|u| = min(m - shift, |v|)[/math] ([math]v[/math] текущая подстрока).
- В противном случае, [math]|u| = 0)[/math], ([math]turboShift[/math] длина турбо-сдвига, [math]bCShift[/math] длина сдвига плохого символа), если турбо-сдвиг меньше сдвига плохого символа, то [math]shift[/math] должен быть не больше [math]|u_0| + 1[/math] ([math]u_0[/math] сегмент текста, рассматриваемый на прошлом шаге).

Псевдокод

Стадия препроцессинга совпадает со стадией препроцессинга в алгоритме Бойера-Мура, функция вычислений сдвигов плохих символов и функция вычисления хороших суффиксов не меняются, меняется только сам алгоритм, в него добавляется обработка турбо-сдвигов.

function TBM(char[] x, char[] y, int n, int m): List<int>
   int i = 0
   int u = 0
   int shift = m
   List<int> answer;

   if (m == 0)
        return
        
   //Предварительные вычисления
   int bmBc[] = preBmBc(x, m)
   int bmGs[] = preBmGs(x, m)

   while (i <= n - m) 
       int j = m - 1
       while (j >= 0 and x[j] == y[i + j])
           --j
           if (u != 0 and j == m - 1 - shift) 
               j -= u
       if (j < 0) 
           answer.add(i)
           shift = bmGs[0]
           u = m - shift
       else 
           int v = m - 1 - j
           int turboShift = u - v
           int bCShift = bmBc[y[i + j]] - m + j + 1
           shift = max(turboShift, bCShift, bmGs[j + 1])
           if (shift == bmGs[j + 1])
               u = min((m - shift), v)
           else 
               if (turboShift < bcShift) 
                   shift = min(shift, (u + 1))
               u = 0
       i += shift
   return answer

Асимптотика

Утверждение:

Фаза препроцессинга требует времени и памяти, где — размер алфавита, — длина шаблона.

Стадия препроцессинга совпадает со стадией препроцессинга в алгоритме Бойера-Мура, поэтому рассмотрим только стадию поиска.

Утверждение:

Фаза поиска требует времени, где — длина строки, в которой выполняется поиск.

Утверждение:

В худшем случае поиск требует сравнений.

Так как мы запоминаем последний просмотренный сегмент текста, совпадающий с суффиксом шаблона, это позволяет нам пропускать его при нахождении очередного (нам незачем второй раз просматривать сегмент, про который известно, что он совпадает), что уменьшет число сравнений и хождений по строке. Докажем, что число сравнений после такой оптимизаций будет [math]O(2n)[/math].

Разобьём поиск на шаги, каждый из которых будет состоять из двух операций: сканирования и сдвига. На шаге [math]k[/math] мы будем называть [math]suf_k[/math] длину суффикса шаблона, что совпадает с текстом, перед суффиксом шаблона будет символ, который не совпадает с соответствующим символом в тексте (в случае когда [math]suf_k[/math] не соответствует длине шаблона). Мы также будем называть [math]shift_k[/math] длину сдвига, сделанного на шаге [math]k[/math].

Рассмотрим три типа шагов в зависимости от характера сканирования и сдвига. Мы говорим, что сдвиг на шаге [math]k[/math] короткий, если [math]2shift_k \lt suf_k + 1[/math]. Тогда эти три типа будут:

Шаг с последующим шагом с прыжком.и
Шаг с длинным сдвигом, без последующего шага с прыжком.
Шаг с коротким сдвигом, без последующего шага с прыжком.

Идея доказательства состоит в амортизации стоимости сравнения со сдвигами. Определим стоимость шага [math]cost_k[/math] следующим образом:

Если шаг [math]k[/math] имеет тип (1), [math]cost_k = 1[/math].
Если шаг [math]k[/math] имеет тип (2) или (3), стоимость [math]cost_k = suf_k + 1[/math].

Общее количество сравнений, выполняемых алгоритмом — сумма стоимостей шагов. Мы хотим доказать, что . Во второй [math] \sum [/math] длину последнего сдвига заменим [math]m[/math]. В случае шага типа (1), стоимость соответствует единственному сравнению несовпадающих символов. Другие сравнения, проведенные в течение того же шага, являются стоимостью последующих шагов.

Рассмотрим каждый тип шага:

[math]cost_k = 1[/math] очевидным образом меньше, чем [math]2shift_k[/math], так как [math]shift_k \gt 0[/math].
, по определению длинных сдвигов.
Так как в этой ситуации мы имеем [math]shift_k \lt suf_k[/math], единственный возможный вариант — обычный сдвиг применяется на шаге [math]k[/math]. Тогда мы должны это запомнить. На следующем шаге, [math]k + 1[/math], мы что-то запомнили, что приводит к возможному турбо-сдвигу. Ситуация на шаге [math]k + 1[/math], основная ситуация, когда турбо-сдвиг возможен. Прежде чем продолжить доказательство, мы сначала рассмотрим два случая и установим неравенства (по стоимости шага [math]k[/math]), которые используем позже.
- Случай (а): . По определению турбо-сдвига, мы имеем . Таким образом, .
- Случай (б): [math]suf_k + shift_k \gt |p|[/math]. По определению турбо-сдвига, мы имеем . Тогда .

Можно считать, что на шаге случай (б) имеет место, потому что это дает нам верхнюю границу (это верно, если , случай можно обрабатывать напрямую). Если шаг типа (1), то , а затем , что даже лучше, чем ожидалось. Если на шаге мы имеем , то мы получим то, что ожидалось: . Последняя ситуация для рассмотрения, когда на шаге мы имеем . Это означает, что, как уже упоминалось ранее, обычный сдвиг применяется на шаге . Таким образом, приведенный выше анализ также применяется на шаге , и, так как только случай (а) может произойти тогда мы получаем . Мы, наконец, получаем .

Покажем правильность шагов по индукции: если все шаги [math]k[/math] до [math]k + j[/math] таковы, что , то .
Пусть [math]k'[/math] первый этап после этапа [math]k[/math] такой, что . Целое число [math]k'[/math] существует потому, что иначе получим бесконечную последовательность сдвигов с уменьшающейся длиной. После этого мы получим .

Это показывает нам, что , что и требовалось.

Пример работы

Пусть нам дана строка и образец [math]x=GCAGAGAG[/math]

Построим массив [math]bmBc[/math]:

Рассмотрим шаги алгоритма:

Изображение	[math](j, bmBc[y[j]])[/math]	Описание
	[math](7, 1)[/math]	Делаем сравнение последних символов, оно неудачно, сдвигаемся на [math]bmGs[7] = bmBc[A]-8+8 = 1[/math].
	[math](8, 2)[/math]	Последние два символа совпали, сдвигаемся на .
	[math](12, 2)[/math]	Все символы совпали, Продолжим работу (для примера, в обычном варианте на этом этапе мы можем выйти, если требуется найти только одно вхождение) и сдвинемся на [math]bmGs[0] = 7[/math].
	[math](19, 2)[/math]	Последние два символа совпали, сдвигаемся на .
	[math](23, 1)[/math]	Последние символы совпали, сравниваем предпоследние, сдвигаемся. Строка закончилась, выходим.

В итоге, чтобы найти одно вхождение образца длиной [math]m = 8[/math] в образце длиной [math]n = 24[/math] нам понадобилось [math]15[/math] сравнений символов

См. также

Источники информации

@@ Строка 67: / Строка 67: @@
 }}
 {{Утверждение|statement= В худшем случае поиск требует <tex>O(2n)</tex> сравнений.
-|proof= Разобьём поиск на шаги, каждый из которых будет состоять из двух операций: сканирования и сдвига. На шаге <tex>k</tex> мы будем называть <tex>suf_k</tex> длину суффикса шаблона, что совпадает с текстом, перед суффиксом шаблона будет символ, который не совпадает с соответствующим символом в тексте (в случае когда <tex>suf_k</tex> не соответствует длине шаблона). Мы также будем называть <tex>shift_k</tex> длину сдвига, сделанного на шаге <tex>k</tex>.
+|proof= Так как мы запоминаем последний просмотренный сегмент текста, совпадающий с суффиксом шаблона, это позволяет нам пропускать его при нахождении очередного (нам незачем второй раз просматривать сегмент, про который известно, что он совпадает), что уменьшет число сравнений и хождений по строке. Докажем, что число сравнений после такой оптимизаций будет <tex>O(2n)</tex>.
+Разобьём поиск на шаги, каждый из которых будет состоять из двух операций: сканирования и сдвига. На шаге <tex>k</tex> мы будем называть <tex>suf_k</tex> длину суффикса шаблона, что совпадает с текстом, перед суффиксом шаблона будет символ, который не совпадает с соответствующим символом в тексте (в случае когда <tex>suf_k</tex> не соответствует длине шаблона). Мы также будем называть <tex>shift_k</tex> длину сдвига, сделанного на шаге <tex>k</tex>.
 Рассмотрим три типа шагов в зависимости от характера сканирования и сдвига. Мы говорим, что сдвиг на шаге <tex>k</tex> короткий, если <tex>2shift_k < suf_k + 1</tex>. Тогда эти три типа будут:
-# Шаг с последующим шагом с прыжком.
+# Шаг с последующим шагом с прыжком.и
 # Шаг с длинным сдвигом, без последующего шага с прыжком.
 # Шаг с коротким сдвигом, без последующего шага с прыжком.
@@ Строка 77: / Строка 79: @@
 * Если шаг <tex>k</tex> имеет тип (2) или (3), стоимость <tex>cost_k = suf_k + 1</tex>.
-Общее количество сравнений выполняемых алгоритмом это сумма стоимостей шагов. Мы хотим доказать, что <tex> \sum cost < 2 \sum shifts</tex>. Во второй <tex> \sum </tex> длину последнего сдвига заменим <tex>m</tex>.
+Общее количество сравнений, выполняемых алгоритмом {{---}} сумма стоимостей шагов. Мы хотим доказать, что <tex> \sum cost < 2 \sum shifts</tex>. Во второй <tex> \sum </tex> длину последнего сдвига заменим <tex>m</tex>.
 В случае шага типа (1), стоимость соответствует единственному сравнению несовпадающих символов. Другие сравнения, проведенные в течение того же шага, являются
 стоимостью последующих шагов.
@@ Строка 84: / Строка 86: @@
 # <tex>cost_k = 1</tex> очевидным образом меньше, чем <tex>2shift_k</tex>, так как <tex>shift_k > 0</tex>.
 # <tex>cost_k = suf_k + 1 \leqslant 2 shift_k</tex>, по определению длинных сдвигов.
-# Так как в этой ситуации мы имеем <tex>shift_k < suf_k</tex>, единственный вариант {{---}} обычный сдвиг применяется на шаге <tex>k</tex>. Тогда мы должны это запомнить. На следующем шаге, <tex>k + 1</tex>, мы что-то запомнили, что приводит к возможному турбо-сдвигу. Ситуация на шаге <tex>k + 1</tex>, основная ситуация, когда турбо-сдвиг возможен. Прежде чем продолжить доказательство, мы сначала рассмотрим два случая и установим неравенства (по стоимости шага <tex>k</tex>), которые используем позже.
+# Так как в этой ситуации мы имеем <tex>shift_k < suf_k</tex>, единственный возможный вариант {{---}} обычный сдвиг применяется на шаге <tex>k</tex>. Тогда мы должны это запомнить. На следующем шаге, <tex>k + 1</tex>, мы что-то запомнили, что приводит к возможному турбо-сдвигу. Ситуация на шаге <tex>k + 1</tex>, основная ситуация, когда турбо-сдвиг возможен. Прежде чем продолжить доказательство, мы сначала рассмотрим два случая и установим неравенства (по стоимости шага <tex>k</tex>), которые используем позже.
 #* Случай (а): <tex>suf_k + shift_k \leqslant |p|</tex>. По определению турбо-сдвига, мы имеем <tex>suf_k - suf_{k+1} < shift_{k + 1}</tex>. Таким образом, <tex>cost_k = sufk + 1 \leqslant suf_{k+1} + shift_{k+1} + 1 \leqslant shift_k + shift_{k + 1}</tex>.
 #* Случай (б): <tex>suf_k + shift_k > |p|</tex>. По определению турбо-сдвига, мы имеем <tex>suf_{k+1} + shift_k + shift_{k + 1} \geqslant m</tex>. Тогда <tex>cost_k \leqslant m \leqslant 2shift_k - 1 + shift_{k + 1}</tex>.

Турбо-алгоритм Бойера-Мура — различия между версиями

Версия 23:13, 2 мая 2016

Содержание

Алгоритм

Определение турбо-сдвига

Применение турбо-сдвига в случае |v| < |u|

Описание алгоритма

Псевдокод

Асимптотика

Пример работы

См. также

Источники информации

Навигация

Персональные инструменты

Пространства имён

Варианты

Просмотры

Ещё

Поиск

Навигация

Инструменты