Турбо-алгоритм Бойера-Мура — различия между версиями
Zemskovk (обсуждение | вклад) (→Асимптотика) |
Zemskovk (обсуждение | вклад) (→Асимптотика) |
||
Строка 67: | Строка 67: | ||
}} | }} | ||
{{Утверждение|statement= В худшем случае поиск требует <tex>O(2n)</tex> сравнений. | {{Утверждение|statement= В худшем случае поиск требует <tex>O(2n)</tex> сравнений. | ||
− | |proof= Разобьём поиск на | + | |proof= Разобьём поиск на шаги, каждый из которых будет состоять из двух операций: сканирования и сдвига. На шаге <tex>k</tex> мы будем называть <tex>suf_k</tex> длину суффикса шаблона, что совпадает с текстом. Перед суффиксом шаблона будет символ, который не совпадает с соответствующим символом в тексте (в случае когда <tex>suf_k</tex> не соответствует длине шаблона). Мы также будем называть <tex>shift_k</tex> длину сдвига, сделанного на шаге <tex>k</tex>. |
− | Рассмотрим три типа | + | Рассмотрим три типа шагов в зависимости от характера сканирования и сдвига. Мы говорим, что сдвиг на шаге <tex>k</tex> короткий, если <tex>2shift_k < suf_k + 1</tex>. Тогда эти три типа будут: |
− | # | + | # Шаг с последующим шагом с прыжком. |
− | # | + | # Шаг с длинным сдвигом, без последующего шага с прыжком. |
− | # | + | # Шаг с коротким сдвигом, без последующего шага с прыжком. |
− | Идея доказательства состоит в амортизации сравнения со сдвигами. Определим стоимость <tex>cost_k</tex> следующим образом: | + | Идея доказательства состоит в амортизации сравнения со сдвигами. Определим стоимость шага <tex>cost_k</tex> следующим образом: |
− | * Если | + | * Если шаг <tex>k</tex> имеет тип (1), <tex>cost_k = 1</tex>. |
− | * Если | + | * Если шаг <tex>k</tex> имеет тип (2) или (3), стоимость <tex>cost_k = suf_k + 1</tex>. |
− | В случае | + | В случае шага типа (1), стоимость соответствует единственному сравнению несовпадающих символов. Другие сравнения, проведенные в течение того же шага, являются |
− | стоимостью последующих | + | стоимостью последующих шагов. Общее количество сравнений выполняемых алгоритмом это сумма стоимостей шагов. Мы хотим доказать, что <tex> \sum cost < 2 \sum shifts</tex>. Во второй <tex> \sum </tex> длину последнего сдвига заменим <tex>m</tex>. Даже с этим предположением, мы имеем <tex> \sum shifts < |t|</tex>, и если неравенство выполняется, тo <tex> \sum cost < 2|t|</tex>. |
− | Для | + | Для шага типа (1), <tex>cost_k = 1</tex> очевидным образом меньше, чем <tex>2shift_k</tex>, так как <tex>shift_k > 0</tex>. Для шага типа (2), <tex>cost_k = suf_k + 1 \leqslant 2 shift_k</tex>, по определению длинных сдвигов. Остается рассмотреть шаг типа (3). Так как в этой ситуации мы имеем <tex>shift_k < suf_k</tex>, единственный вариант, что обычный сдвиг применяется на шаге <tex>k</tex>. Тогда мы запоминаем этот момент. На следующем шаге, <tex>k + 1</tex>, мы что-то запомнили, что приводит к возможному турбо-сдвигу. Ситуация на шаге <tex>k + 1</tex>, основная ситуация, когда турбо-сдвиг возможен. Прежде чем продолжить доказательство, мы сначала рассмотрим два случая и установим неравенства (по стоимости шага <tex>k</tex>), которые используем позже. |
* Случай (а): <tex>suf_k + shift_k \leqslant |p|</tex>. По определению турбо-сдвига, мы имеем <tex>suf_k - suf_{k+1} < shift_{k + 1}</tex>. Таким образом, <tex>cost_k = sufk + 1 \leqslant suf_{k+1} + shift_{k+1} + 1 \leqslant shift_k + shift_{k + 1}</tex>. | * Случай (а): <tex>suf_k + shift_k \leqslant |p|</tex>. По определению турбо-сдвига, мы имеем <tex>suf_k - suf_{k+1} < shift_{k + 1}</tex>. Таким образом, <tex>cost_k = sufk + 1 \leqslant suf_{k+1} + shift_{k+1} + 1 \leqslant shift_k + shift_{k + 1}</tex>. | ||
* Случай (б): <tex>suf_k + shift_k > |p|</tex>. По определению турбо-сдвига, мы имеем <tex>suf_{k+1} + shift_k + shift_{k + 1} \geqslant m</tex>. Тогда <tex>cost_k \leqslant m \leqslant 2shift_k - 1 + shift_{k + 1}</tex>. | * Случай (б): <tex>suf_k + shift_k > |p|</tex>. По определению турбо-сдвига, мы имеем <tex>suf_{k+1} + shift_k + shift_{k + 1} \geqslant m</tex>. Тогда <tex>cost_k \leqslant m \leqslant 2shift_k - 1 + shift_{k + 1}</tex>. | ||
− | Можно считать, что на | + | Можно считать, что на шаге <tex>k + 1</tex> случай (б) имеет место, потому что это дает нам верхнюю границу <tex>cost_k</tex> (это верно, если <tex>shift_k \geqslant 2</tex>, случай <tex>shift_k = 1</tex> можно обрабатывать напрямую). Если шаг <tex>k + 1</tex> типа (1), то <tex>cost_{k + 1} = 1</tex>, а затем <tex>cost_k + cost_{k+1} \leqslant 2shift_k + shift_{k+1}</tex>, что даже лучше, чем ожидалось. Если на шаге <tex>k + 1</tex> мы имеем <tex>suf_{k + 1} \leqslant shift_{k + 1}</tex>, то мы получим то, что ожидалось: <tex>cost_k + cost_{k + 1} \leqslant 2shift_k + 2shift_{k + 1}</tex>. |
− | Последняя ситуация для рассмотрения, когда на | + | Последняя ситуация для рассмотрения, когда на шаге <tex>k + 1</tex> мы имеем <tex>suf_{k + 1} > shift_{k + 1}</tex>. Это означает, что, как уже упоминалось ранее, обычный сдвиг применяется на шаге <tex>k + 1</tex>. |
− | Таким образом, приведенный выше анализ также применяется на | + | Таким образом, приведенный выше анализ также применяется на шаге <tex>k + 1</tex>, и, так как только случай (а) может произойти тогда мы получаем <tex>cost_{k + 1} \leqslant shift_{k + 1} + shift_{k + 2}</tex>. Мы, наконец, получаем <tex>cost_k + cost_{k + 1} \leqslant 2shift_k + 2shift_{k + 1} + shift_{k + 2}</tex>. |
− | Последний аргумент, доказывающий первый шаг индукции: если все | + | Последний аргумент, доказывающий первый шаг индукции: если все шаги <tex>k</tex> до <tex>k + j</tex> таковы, что <tex>suf_k > shift_k,... , suf_{k + j} > shift_{k + j}</tex>, то <tex>cost_k + ... + cost_{k + j} \leqslant 2shift_k + ... + 2shift_{k + j} + shift_{k + j + 1}</tex>. |
Пусть <tex>k'</tex> первый этап после этапа <tex>k</tex> такой, что <tex>suf_{k'} \leqslant shift_{k'}</tex>. Целое число <tex>k'</tex> существует потому, что иначе получим бесконечную последовательность сдвигов с уменьшающейся длиной. После этого мы получим <tex>cost_k + ... + cost_{k'} \leqslant 2shift_k + ... + 2shift_{k'}</tex>. | Пусть <tex>k'</tex> первый этап после этапа <tex>k</tex> такой, что <tex>suf_{k'} \leqslant shift_{k'}</tex>. Целое число <tex>k'</tex> существует потому, что иначе получим бесконечную последовательность сдвигов с уменьшающейся длиной. После этого мы получим <tex>cost_k + ... + cost_{k'} \leqslant 2shift_k + ... + 2shift_{k'}</tex>. |
Версия 19:12, 27 апреля 2016
Турбо-алгоритм Бойера-Мура (англ. Turbo Boyer-Moore) является улучшением алгоритма Бойера-Мура. Турбо-алгоритм, разработанный группой учёных во главе с М.Крочемором, предлагает другой подход к коротким алфавитам и заодно решает вторую проблему — квадратичную сложность в худшем случае.
Содержание
Алгоритм
Турбо-алгоритм Бойера-Мура не нуждается в дополнительном препроцессинге и требует только постоянную дополнительную память относительно оригинального алгоритма Бойера-Мура. Он состоит в запоминании сегмента текста, который соответствует суффиксу шаблона во время последней попытки (и только тогда, когда сдвиг хорошего суффикса был выполнен). Эта методика представляет два преимущества:
- Можно перепрыгнуть через этот сегмент.
- Она может позволить выполнение «турбо-сдвига».
Турбо-сдвиг может произойти, если мы обнаружим, что суффикс образца, который сходится с текстом, короче, чем тот, который был запомнен ранее.
Определение турбо-сдвига
Пусть — запомненный сегмент, а — cуффикс, совпавший во время текущей попытки, такой что — суффикс . Тогда — суффикс , два символа и встречаются на расстоянии в тексте, и суффикс длины имеет период длины , а значит не может перекрыть оба появления символов и в тексте. Наименьший возможный сдвиг имеет длину (его мы и называем турбо-сдвигом).Применение турбо-сдвига в случае |v| < |u|
При
, если длина сдвига плохого символа больше, чем длина сдвига хорошего суффикса и длины турбо-сдвига, то длина фактического сдвига должна быть больше или равна . Действительно, в этом случае два символа и различны, так как мы предположили, что предыдущий сдвиг был сдвигом хороший суффикса. Тогда сдвиг больший, чем турбо-сдвиг, но меньший, чем будет выравнивать и с таким же символом в , в этом случае длина фактического сдвига должна быть по крайней мере равен .Нельзя совместить символы
с одним и тем же символом .Описание алгоритма
В алгоритм Бойера-Мура дополнительно добавится запоминание длины сегмента текста, который соответствует суффиксу шаблона во время последней попытки, который мы не будем лишний раз рассматривать при сравнении суффиксов двух подстрок, а также запоминании размера сдвига , который мы совершили. Вычислять его будем следующим образом:
- Если текущем шаге у нас подстрока совпала с шаблоном , то ( равен периоду шаблона ), .
- Иначе возможны два случая:
- Если сдвиг хорошего суффикса не меньше турбо-сдвига и сдвига плохого символа, тогда , ( текущая подстрока).
- В противном случае, , ( длина турбо-сдвига, длина сдвига плохого символа), если турбо-сдвиг меньше сдвига плохого символа, то должен быть не больше ( сегмент текста, рассматриваемый на прошлом шаге).
Псевдокод
Стадия препроцессинга совпадает со стадией препроцессинга в алгоритме Бойера-Мура, функция вычислений сдвигов плохих символов и функция вычисления хороших суффиксов не меняются, меняется только сам алгоритм, в него добавляется обработка турбо-сдвигов.
function TBM(char[] x, char[] y, int n, int m): List<int> int i = 0 int u = 0 int shift = m List<int> answer; if (m == 0) return //Предварительные вычисления int bmBc[] = preBmBc(x, m) int bmGs[] = preBmGs(x, m) while (i <= n - m) int j = m - 1 while (j >= 0 and x[j] == y[i + j]) --j if (u != 0 and j == m - 1 - shift) j -= u if (j < 0) answer.add(i) shift = bmGs[0] u = m - shift else int v = m - 1 - j int turboShift = u - v int bCShift = bmBc[y[i + j]] - m + j + 1 shift = max(turboShift, bCShift, bmGs[j + 1]) if (shift == bmGs[j + 1]) u = min((m - shift), v) else if (turboShift < bcShift) shift = min(shift, (u + 1)) u = 0 i += shift return answer
Асимптотика
Утверждение: |
Фаза препроцессинга требует времени и памяти, где — размер алфавита, — длина шаблона. |
Стадия препроцессинга совпадает со стадией препроцессинга в алгоритме Бойера-Мура, поэтому рассмотрим только стадию поиска. |
Утверждение: |
Фаза поиска требует времени, где — длина строки, в которой выполняется поиск. |
Утверждение: |
В худшем случае поиск требует сравнений. |
Разобьём поиск на шаги, каждый из которых будет состоять из двух операций: сканирования и сдвига. На шаге мы будем называть длину суффикса шаблона, что совпадает с текстом. Перед суффиксом шаблона будет символ, который не совпадает с соответствующим символом в тексте (в случае когда не соответствует длине шаблона). Мы также будем называть длину сдвига, сделанного на шаге .Рассмотрим три типа шагов в зависимости от характера сканирования и сдвига. Мы говорим, что сдвиг на шаге короткий, если . Тогда эти три типа будут:
Идея доказательства состоит в амортизации сравнения со сдвигами. Определим стоимость шага следующим образом:
В случае шага типа (1), стоимость соответствует единственному сравнению несовпадающих символов. Другие сравнения, проведенные в течение того же шага, являются стоимостью последующих шагов. Общее количество сравнений выполняемых алгоритмом это сумма стоимостей шагов. Мы хотим доказать, что . Во второй длину последнего сдвига заменим . Даже с этим предположением, мы имеем , и если неравенство выполняется, тo .Для шага типа (1), очевидным образом меньше, чем , так как . Для шага типа (2), , по определению длинных сдвигов. Остается рассмотреть шаг типа (3). Так как в этой ситуации мы имеем , единственный вариант, что обычный сдвиг применяется на шаге . Тогда мы запоминаем этот момент. На следующем шаге, , мы что-то запомнили, что приводит к возможному турбо-сдвигу. Ситуация на шаге , основная ситуация, когда турбо-сдвиг возможен. Прежде чем продолжить доказательство, мы сначала рассмотрим два случая и установим неравенства (по стоимости шага ), которые используем позже.
Можно считать, что на шаге случай (б) имеет место, потому что это дает нам верхнюю границу (это верно, если , случай можно обрабатывать напрямую). Если шаг типа (1), то , а затем , что даже лучше, чем ожидалось. Если на шаге мы имеем , то мы получим то, что ожидалось: . Последняя ситуация для рассмотрения, когда на шаге мы имеем . Это означает, что, как уже упоминалось ранее, обычный сдвиг применяется на шаге .Таким образом, приведенный выше анализ также применяется на шаге , и, так как только случай (а) может произойти тогда мы получаем . Мы, наконец, получаем . Последний аргумент, доказывающий первый шаг индукции: если все шаги до таковы, что , то .Пусть Это показывает нам, что первый этап после этапа такой, что . Целое число существует потому, что иначе получим бесконечную последовательность сдвигов с уменьшающейся длиной. После этого мы получим . , что и требовалось. |
Пример работы
Пусть нам дана строка
и образецПостроим массив
:Рассмотрим шаги алгоритма:
В итоге, чтобы найти одно вхождение образца длиной
в образце длиной нам понадобилось сравнений символов