Турбо-алгоритм Бойера-Мура — различия между версиями
Zemskovk (обсуждение | вклад) (→Определение турбо-сдвига) |
м (rollbackEdits.php mass rollback) |
||
(не показано 17 промежуточных версий 4 участников) | |||
Строка 8: | Строка 8: | ||
===Определение турбо-сдвига=== | ===Определение турбо-сдвига=== | ||
− | Пусть <tex>u</tex> — запомненный сегмент, а <tex>v</tex> — cуффикс, совпавший во время текущей попытки, такой что <tex>uzv</tex> — суффикс <tex>x</tex>. Тогда <tex>av</tex> — суффикс <tex>x</tex>, два символа <tex>a</tex> и <tex>b</tex> встречаются на расстоянии <tex>p</tex> в тексте, и суффикс <tex>x</tex> длины <tex>size(uzv)</tex> имеет период длины <tex>p</tex>, а значит не может перекрыть оба появления символов <tex>a</tex> и <tex>b</tex> в тексте. Наименьший возможный сдвиг имеет длину <tex>size(u) - size(v)</tex> (его мы и называем турбо-сдвигом).[[Файл:Tbm1.png|600px|center]] | + | Пусть <tex>u</tex> — запомненный сегмент, а <tex>v</tex> — cуффикс, совпавший во время текущей попытки, такой что <tex>uzv</tex> — суффикс <tex>x</tex>. Тогда <tex>av</tex> — суффикс <tex>x</tex>, два символа <tex>a</tex> и <tex>b</tex> встречаются на расстоянии <tex>p</tex> в тексте, и суффикс <tex>x</tex> длины <tex> \mathrm{size}(uzv)</tex> имеет период длины <tex>p</tex>, а значит не может перекрыть оба появления символов <tex>a</tex> и <tex>b</tex> в тексте. Наименьший возможный сдвиг имеет длину <tex> \mathrm{size}(u) - \mathrm{size}(v)</tex> (его мы и называем турбо-сдвигом).[[Файл:Tbm1.png|600px|center]] |
− | Тем не менее, при <tex>size( | + | Тем не менее, при <tex> \mathrm{size}(u) < \mathrm{size}(v)</tex>, если длина сдвига плохого символа больше, чем длина сдвига хорошего суффикса и длины турбо-сдвига, то длина фактического сдвига должна быть больше или равна <tex> \mathrm{size}(u) + 1</tex>. Действительно, в этом случае два символа <tex>c</tex> и <tex>d</tex> различны, так как мы предположили, что предыдущий сдвиг был сдвигом хороший суффикса. Тогда сдвиг больший, чем турбо-сдвиг, но меньший, чем <tex> \mathrm{size}(u) +1</tex> будет выравнивать <tex>c</tex> и <tex>d</tex> с таким же символом в <tex>v</tex>, в этом случае длина фактического сдвига должна быть по крайней мере равен <tex> \mathrm{size}(u) +1</tex>. |
[[Файл:Tbm2.png|600px|center]] | [[Файл:Tbm2.png|600px|center]] | ||
Нельзя совместить символы <tex>c \neq d</tex> с одним и тем же символом в <tex>v</tex>. | Нельзя совместить символы <tex>c \neq d</tex> с одним и тем же символом в <tex>v</tex>. | ||
===Описание алгоритма=== | ===Описание алгоритма=== | ||
− | В [[Алгоритм Бойера-Мура|алгоритм Бойера-Мура]] дополнительно добавится запоминание длины <tex>size(u)</tex> сегмента текста, который соответствует суффиксу шаблона во время последней попытки, который мы не будем лишний раз рассматривать при сравнении суффиксов двух подстрок, а также запоминании размера сдвига <tex>shift</tex>, который мы совершили. Вычислять его будем следующим образом: | + | В [[Алгоритм Бойера-Мура|алгоритм Бойера-Мура]] дополнительно добавится запоминание длины <tex> \mathrm{size}(u)</tex> сегмента текста, который соответствует суффиксу шаблона во время последней попытки, который мы не будем лишний раз рассматривать при сравнении суффиксов двух подстрок, а также запоминании размера сдвига <tex>\mathrm{shift}</tex>, который мы совершили. Вычислять его будем следующим образом: |
− | * Если текущем шаге у нас подстрока совпала с шаблоном <tex>x</tex>, то <tex>\mathrm{shift} = bmGs[0]</tex> (<tex>bmGs[0]</tex> равен периоду шаблона <tex>x</tex>), <tex>size(u) = m - \mathrm{shift}</tex>. | + | |
+ | Пусть <tex>\mathrm{size}(y) = n</tex>, <tex>\mathrm{size}(x)=m</tex> и <tex>\sigma</tex> {{---}} размер алфавита. | ||
+ | |||
+ | * Если текущем шаге у нас подстрока совпала с шаблоном <tex>x</tex>, то <tex>\mathrm{shift} = bmGs[0]</tex> (<tex>bmGs[0]</tex> равен периоду шаблона <tex>x</tex>), <tex> \mathrm{size}(u) = m - \mathrm{shift}</tex>. | ||
* Иначе возможны два случая: | * Иначе возможны два случая: | ||
− | ** Если сдвиг хорошего суффикса не меньше турбо-сдвига и сдвига плохого символа, тогда <tex> \mathrm{shift} = bmGs[j+1]</tex>, <tex>size(u) = \min(m - \mathrm{shift}, | + | ** Если сдвиг хорошего суффикса не меньше турбо-сдвига и сдвига плохого символа, тогда <tex> \mathrm{shift} = bmGs[j+1]</tex>, <tex>\mathrm{size}(u) = \min(m - \mathrm{shift}, \mathrm{size}(v))</tex>, где <tex>v</tex> {{---}} текущая подстрока. |
− | ** В противном случае, <tex>size(u) = 0</tex>, <tex>\mathrm{shift} = \max( \mathrm{turboShift}, \mathrm{bCShift})</tex>, где <tex> \mathrm{turboShift}</tex> {{---}} длина турбо-сдвига, <tex> \mathrm{bCShift}</tex> {{---}} длина сдвига плохого символа. Если турбо-сдвиг меньше сдвига плохого символа, то <tex> \mathrm{shift}</tex> должен быть не больше <tex>size(u_0) + 1</tex>, где <tex>u_0</tex> {{---}} сегмент текста, рассматриваемый на прошлом шаге. | + | ** В противном случае, <tex> \mathrm{size}(u) = 0</tex>, <tex>\mathrm{shift} = \max( \mathrm{turboShift}, \mathrm{bCShift})</tex>, где <tex> \mathrm{turboShift}</tex> {{---}} длина турбо-сдвига, <tex> \mathrm{bCShift}</tex> {{---}} длина сдвига плохого символа. Если турбо-сдвиг меньше сдвига плохого символа, то <tex> \mathrm{shift}</tex> должен быть не больше <tex>\mathrm{size}(u_0) + 1</tex>, где <tex>u_0</tex> {{---}} сегмент текста, рассматриваемый на прошлом шаге. |
==Псевдокод== | ==Псевдокод== | ||
Стадия препроцессинга совпадает со стадией препроцессинга в [[Алгоритм Бойера-Мура|алгоритме Бойера-Мура]], функция вычислений сдвигов плохих символов и функция вычисления хороших суффиксов не меняются, меняется только сам алгоритм, в него добавляется обработка турбо-сдвигов. | Стадия препроцессинга совпадает со стадией препроцессинга в [[Алгоритм Бойера-Мура|алгоритме Бойера-Мура]], функция вычислений сдвигов плохих символов и функция вычисления хороших суффиксов не меняются, меняется только сам алгоритм, в него добавляется обработка турбо-сдвигов. | ||
− | <font color=green>//x - шаблон, y - текст, m - длина шаблона, n - длина текста</font> | + | <font color=green>//x {{---}} шаблон, y {{---}} текст, m {{---}} длина шаблона, n {{---}} длина текста</font> |
− | '''function''' TBM('''char'''[] | + | '''function''' TBM(x: '''char'''[m], y: '''char'''[n]): '''List<int>''' |
'''int''' i = 0 | '''int''' i = 0 | ||
'''int''' u = 0 | '''int''' u = 0 | ||
'''int''' shift = m | '''int''' shift = m | ||
− | <font color=green>//answer - массив, в который мы сохраняем индексы, начиная с которых, подстроки текста совпадают с шаблоном</font> | + | <font color=green>//answer {{---}} массив, в который мы сохраняем индексы, начиная с которых, подстроки текста совпадают с шаблоном</font> |
'''List<int>''' answer | '''List<int>''' answer | ||
Строка 63: | Строка 66: | ||
==Асимптотика== | ==Асимптотика== | ||
− | {{Утверждение|statement= Фаза препроцессинга требует <tex>O(m + \sigma)</tex> времени и памяти, где <tex>\sigma</tex> {{---}} размер алфавита | + | {{Утверждение|statement= Фаза препроцессинга требует <tex>O(m + \sigma)</tex> времени и памяти, где <tex>\sigma</tex> {{---}} размер алфавита. |
− | |proof= Стадия препроцессинга совпадает со стадией препроцессинга в [[Алгоритм Бойера-Мура|алгоритме Бойера-Мура]], поэтому рассмотрим только стадию поиска.}} | + | |proof= Стадия препроцессинга совпадает со стадией препроцессинга в [[Алгоритм Бойера-Мура|алгоритме Бойера-Мура]]<ref>В этом конспекте приведена реализация за <tex>O(n^2)</tex> и неконстантную память, реализацию за <tex>O(n)</tex> и константную память можно посмотреть вот [http://www-igm.univ-mlv.fr/~lecroq/string/node14.html#SECTION00140 тут] </ref>, поэтому рассмотрим только стадию поиска.}} |
{{Утверждение|statement= Фаза поиска требует <tex>O(n)</tex> времени, где <tex>n</tex> {{---}} длина строки, в которой выполняется поиск. | {{Утверждение|statement= Фаза поиска требует <tex>O(n)</tex> времени, где <tex>n</tex> {{---}} длина строки, в которой выполняется поиск. | ||
}} | }} | ||
Строка 98: | Строка 101: | ||
==Пример работы== | ==Пример работы== | ||
− | Пусть нам дана строка <tex>y = GCATCGCAGAGAGTATACAGTACG</tex> и образец <tex>x=GCAGAGAG</tex> | + | Пусть нам дана строка <tex>y = GCATCGCAGAGAGTATACAGTACG</tex> и образец <tex>x=GCAGAGAG</tex>. |
Построим массив <tex>bmBc</tex>: | Построим массив <tex>bmBc</tex>: | ||
Строка 111: | Строка 114: | ||
|[[Файл:Raita1.png|550px]] | |[[Файл:Raita1.png|550px]] | ||
|<tex>(7, 1)</tex> | |<tex>(7, 1)</tex> | ||
− | | | + | |Сравниваем последние символы, они неравны, поэтому сдвигаемся на <tex>bmGs[7] = bmBc[A]-8+8 = 1</tex>. |
|-align="center" | |-align="center" | ||
|[[Файл:Tbme2.PNG|550px]] | |[[Файл:Tbme2.PNG|550px]] | ||
Строка 131: | Строка 134: | ||
|} | |} | ||
− | В итоге, чтобы найти одно вхождение образца длиной <tex>m = 8</tex> в образце длиной <tex>n = 24</tex> нам понадобилось <tex>15</tex> сравнений символов | + | В итоге, чтобы найти одно вхождение образца длиной <tex>m = 8</tex> в образце длиной <tex>n = 24</tex> нам понадобилось <tex>15</tex> сравнений символов. |
==См. также== | ==См. также== | ||
Строка 138: | Строка 141: | ||
* [[Алгоритм Кнута-Морриса-Пратта|Алгоритм Кнута-Морриса-Пратта]] | * [[Алгоритм Кнута-Морриса-Пратта|Алгоритм Кнута-Морриса-Пратта]] | ||
* [[Алгоритм Апостолико-Крочемора|Алгоритм Апостолико-Крочемора]] | * [[Алгоритм Апостолико-Крочемора|Алгоритм Апостолико-Крочемора]] | ||
+ | |||
+ | ==Примечания== | ||
+ | |||
+ | <references /> | ||
+ | |||
==Источники информации== | ==Источники информации== | ||
* [[wikipedia:ru:Алгоритм_Бойера_—_Мура|Википедия {{---}} Алгоритм Бойера-Мура]] | * [[wikipedia:ru:Алгоритм_Бойера_—_Мура|Википедия {{---}} Алгоритм Бойера-Мура]] |
Текущая версия на 19:21, 4 сентября 2022
Турбо-алгоритм Бойера-Мура (англ. Turbo Boyer-Moore) является улучшением алгоритма Бойера-Мура. Турбо-алгоритм, разработанный группой учёных во главе с М.Крочемором, предлагает другой подход к коротким алфавитам и заодно решает вторую проблему — квадратичную сложность в худшем случае. Помимо эвристики стоп-символа и эвристики совпавшего суффикса, применяется третья эвристика — эвристика турбосдвига.
Содержание
Алгоритм
Турбо-алгоритм Бойера-Мура не нуждается в дополнительном препроцессинге и требует только постоянную дополнительную память относительно оригинального алгоритма Бойера-Мура. Он состоит в запоминании сегмента текста, который соответствует суффиксу шаблона, совпавшему во время предыдущего шага алгоритма (и только тогда, когда сдвиг хорошего суффикса был выполнен). Эта методика представляет два преимущества:
- Можно перепрыгнуть через этот сегмент.
- Она может позволить выполнение «турбо-сдвига».
Турбо-сдвиг может произойти, если мы обнаружим, что суффикс образца, который сходится с текстом, короче, чем тот, который был запомнен ранее.
Определение турбо-сдвига
Пусть — запомненный сегмент, а — cуффикс, совпавший во время текущей попытки, такой что — суффикс . Тогда — суффикс , два символа и встречаются на расстоянии в тексте, и суффикс длины имеет период длины , а значит не может перекрыть оба появления символов и в тексте. Наименьший возможный сдвиг имеет длину (его мы и называем турбо-сдвигом).Тем не менее, при
, если длина сдвига плохого символа больше, чем длина сдвига хорошего суффикса и длины турбо-сдвига, то длина фактического сдвига должна быть больше или равна . Действительно, в этом случае два символа и различны, так как мы предположили, что предыдущий сдвиг был сдвигом хороший суффикса. Тогда сдвиг больший, чем турбо-сдвиг, но меньший, чем будет выравнивать и с таким же символом в , в этом случае длина фактического сдвига должна быть по крайней мере равен .Нельзя совместить символы
с одним и тем же символом в .Описание алгоритма
В алгоритм Бойера-Мура дополнительно добавится запоминание длины сегмента текста, который соответствует суффиксу шаблона во время последней попытки, который мы не будем лишний раз рассматривать при сравнении суффиксов двух подстрок, а также запоминании размера сдвига , который мы совершили. Вычислять его будем следующим образом:
Пусть
, и — размер алфавита.- Если текущем шаге у нас подстрока совпала с шаблоном , то ( равен периоду шаблона ), .
- Иначе возможны два случая:
- Если сдвиг хорошего суффикса не меньше турбо-сдвига и сдвига плохого символа, тогда , , где — текущая подстрока.
- В противном случае, , , где — длина турбо-сдвига, — длина сдвига плохого символа. Если турбо-сдвиг меньше сдвига плохого символа, то должен быть не больше , где — сегмент текста, рассматриваемый на прошлом шаге.
Псевдокод
Стадия препроцессинга совпадает со стадией препроцессинга в алгоритме Бойера-Мура, функция вычислений сдвигов плохих символов и функция вычисления хороших суффиксов не меняются, меняется только сам алгоритм, в него добавляется обработка турбо-сдвигов.
//x — шаблон, y — текст, m — длина шаблона, n — длина текста function TBM(x: char[m], y: char[n]): List<int> int i = 0 int u = 0 int shift = m //answer — массив, в который мы сохраняем индексы, начиная с которых, подстроки текста совпадают с шаблоном List<int> answer if (m == 0) return //Предварительные вычисления int bmBc[] = preBmBc(x, m) int bmGs[] = preBmGs(x, m) while (i <= n - m) int j = m - 1 while (j >= 0 and x[j] == y[i + j]) --j if (u != 0 and j == m - 1 - shift) j -= u if (j < 0) answer.add(i) shift = bmGs[0] u = m - shift else int v = m - 1 - j int turboShift = u - v int bCShift = bmBc[y[i + j]] - m + j + 1 shift = max(turboShift, bCShift, bmGs[j + 1]) if (shift == bmGs[j + 1]) u = min((m - shift), v) else if (turboShift < bcShift) shift = min(shift, (u + 1)) u = 0 i += shift return answer
Асимптотика
Утверждение: |
Фаза препроцессинга требует времени и памяти, где — размер алфавита. |
Стадия препроцессинга совпадает со стадией препроцессинга в алгоритме Бойера-Мура[1], поэтому рассмотрим только стадию поиска. |
Утверждение: |
Фаза поиска требует времени, где — длина строки, в которой выполняется поиск. |
Утверждение: |
В худшем случае поиск требует сравнений. |
Так как мы запоминаем последний просмотренный сегмент текста, совпадающий с суффиксом шаблона, это позволяет нам пропускать его при нахождении очередного (нам незачем второй раз просматривать сегмент, про который известно, что он совпадает), что уменьшет число сравнений и хождений по строке. Докажем, что число сравнений после такой оптимизаций будет .Разобьём поиск на шаги, каждый из которых будет состоять из двух операций: сканирования и сдвига. На шаге мы будем называть длину суффикса шаблона, что совпадает с текстом, перед суффиксом шаблона будет символ, который не совпадает с соответствующим символом в тексте (в случае когда не соответствует длине шаблона). Мы также будем называть длину сдвига, сделанного на шаге .Рассмотрим три типа шагов в зависимости от характера сканирования и сдвига. Мы говорим, что сдвиг на шаге короткий, если . Тогда эти три типа будут:
Идея доказательства состоит в амортизации стоимости сравнения со сдвигами. Определим стоимость шага следующим образом:
Общее количество сравнений, выполняемых алгоритмом — сумма стоимостей шагов. Мы хотим доказать, что . Во второй длину последнего сдвига заменим . В случае шага типа (1), стоимость соответствует единственному сравнению несовпадающих символов. Другие сравнения, проведенные в течение того же шага, являются стоимостью последующих шагов.Рассмотрим каждый тип шага:
Покажем правильность шагов по индукции: если все шаги |
Пример работы
Пусть нам дана строка
и образец .Построим массив
:Рассмотрим шаги алгоритма:
В итоге, чтобы найти одно вхождение образца длиной
в образце длиной нам понадобилось сравнений символов.