Турбо-алгоритм Бойера-Мура — различия между версиями
Zemskovk (обсуждение | вклад) (→Алгоритм) |
Zemskovk (обсуждение | вклад) |
||
Строка 1: | Строка 1: | ||
− | ''' | + | '''Турбо-алгоритм Бойера-Мура''' (англ. ''Turbo Boyer-Moore'') является улучшением [[Алгоритм Бойера-Мура|алгоритма Бойера-Мура]]. Турбо-алгоритм, разработанный группой учёных во главе с М.Крочемором, предлагает другой подход к коротким алфавитам и заодно решает вторую проблему — квадратичную сложность в худшем случае. |
==Алгоритм== | ==Алгоритм== | ||
Турбо-алгоритм Бойера-Мура не нуждается в дополнительном препроцессинге и требует только постоянную дополнительную память относительно оригинального алгоритма Бойера-Мура. Он состоит в запоминании сегмента текста, который соответствует суффиксу шаблона во время последней попытки (и только тогда, когда сдвиг хорошего суффикса был выполнен). | Турбо-алгоритм Бойера-Мура не нуждается в дополнительном препроцессинге и требует только постоянную дополнительную память относительно оригинального алгоритма Бойера-Мура. Он состоит в запоминании сегмента текста, который соответствует суффиксу шаблона во время последней попытки (и только тогда, когда сдвиг хорошего суффикса был выполнен). | ||
Эта методика представляет два преимущества: | Эта методика представляет два преимущества: | ||
# можно перепрыгнуть через этот сегмент; | # можно перепрыгнуть через этот сегмент; | ||
− | # она может позволить выполнение | + | # она может позволить выполнение «турбо-сдвига». |
Турбо-сдвиг может произойти, если мы обнаружим, что суффикс образца, который сходится с текстом, короче, чем тот, который был запомнен ранее. | Турбо-сдвиг может произойти, если мы обнаружим, что суффикс образца, который сходится с текстом, короче, чем тот, который был запомнен ранее. | ||
Строка 12: | Строка 12: | ||
При <tex>|v| < |u|</tex>, если сдвиг плохого символа больше, то совершаемый сдвиг будет больше либо равен <tex>|u| - 1</tex>. В этом случае символы <tex>c</tex> и <tex>d</tex> различны, так как мы предположили, что предыдущий сдвиг был сдвигом хорошего суффикса. Тогда сдвиг больший, чем турбо-сдвиг, но меньший <tex>|u| + 1</tex> совместит <tex>c</tex> и <tex>d</tex> с одним и тем же символом <tex>v</tex>. Значит, если сдвиг плохого символа больше, то мы можем применить сдвиг больший либо равный <tex>|u| + 1</tex>. | При <tex>|v| < |u|</tex>, если сдвиг плохого символа больше, то совершаемый сдвиг будет больше либо равен <tex>|u| - 1</tex>. В этом случае символы <tex>c</tex> и <tex>d</tex> различны, так как мы предположили, что предыдущий сдвиг был сдвигом хорошего суффикса. Тогда сдвиг больший, чем турбо-сдвиг, но меньший <tex>|u| + 1</tex> совместит <tex>c</tex> и <tex>d</tex> с одним и тем же символом <tex>v</tex>. Значит, если сдвиг плохого символа больше, то мы можем применить сдвиг больший либо равный <tex>|u| + 1</tex>. | ||
[[Файл:Tbm2.png|800px|center]] | [[Файл:Tbm2.png|800px|center]] | ||
− | Нельзя совместить символы <tex>c \neq d</tex> с одним и тем же символом v. | + | Нельзя совместить символы <tex>c \neq d</tex> с одним и тем же символом <tex>v</tex>. |
==Псевдокод== | ==Псевдокод== | ||
Строка 39: | Строка 39: | ||
j -= u | j -= u | ||
'''if''' (j < 0) | '''if''' (j < 0) | ||
− | + | print(i) | |
shift = bm_gs[0] | shift = bm_gs[0] | ||
u = m - shift | u = m - shift | ||
Строка 46: | Строка 46: | ||
'''int''' turbo_shift = u - v | '''int''' turbo_shift = u - v | ||
'''int''' bc_shift = bm_bc[y[i + j]] - m + j + 1 | '''int''' bc_shift = bm_bc[y[i + j]] - m + j + 1 | ||
− | shift = | + | shift = max(turbo_shift, bc_shift, bm_gs[j + 1]) |
− | |||
'''if''' (shift == bm_gs[j + 1]) | '''if''' (shift == bm_gs[j + 1]) | ||
− | u = | + | u = min((m - shift), v) |
'''else''' | '''else''' | ||
'''if''' (turbo_shift < bc_shift) | '''if''' (turbo_shift < bc_shift) | ||
− | shift = | + | shift = min(shift, (u + 1)) |
u = 0 | u = 0 | ||
i += shift | i += shift | ||
Строка 66: | Строка 65: | ||
* [[Алгоритм Кнута-Морриса-Пратта|Алгоритм Кнута-Морриса-Пратта]] | * [[Алгоритм Кнута-Морриса-Пратта|Алгоритм Кнута-Морриса-Пратта]] | ||
* [[Алгоритм Апостолико-Крочемора|Алгоритм Апостолико-Крочемора]] | * [[Алгоритм Апостолико-Крочемора|Алгоритм Апостолико-Крочемора]] | ||
− | == | + | ==Источники информации== |
* [[wikipedia:ru:Алгоритм_Бойера_—_Мура|Википедия {{---}} Алгоритм Бойера-Мура]] | * [[wikipedia:ru:Алгоритм_Бойера_—_Мура|Википедия {{---}} Алгоритм Бойера-Мура]] | ||
* [[wikipedia:Boyer–Moore_string_search_algorithm|Wikipedia {{---}} Boyer–Moore string search algorithm]] | * [[wikipedia:Boyer–Moore_string_search_algorithm|Wikipedia {{---}} Boyer–Moore string search algorithm]] |
Версия 20:14, 9 апреля 2016
Турбо-алгоритм Бойера-Мура (англ. Turbo Boyer-Moore) является улучшением алгоритма Бойера-Мура. Турбо-алгоритм, разработанный группой учёных во главе с М.Крочемором, предлагает другой подход к коротким алфавитам и заодно решает вторую проблему — квадратичную сложность в худшем случае.
Содержание
Алгоритм
Турбо-алгоритм Бойера-Мура не нуждается в дополнительном препроцессинге и требует только постоянную дополнительную память относительно оригинального алгоритма Бойера-Мура. Он состоит в запоминании сегмента текста, который соответствует суффиксу шаблона во время последней попытки (и только тогда, когда сдвиг хорошего суффикса был выполнен). Эта методика представляет два преимущества:
- можно перепрыгнуть через этот сегмент;
- она может позволить выполнение «турбо-сдвига».
Турбо-сдвиг может произойти, если мы обнаружим, что суффикс образца, который сходится с текстом, короче, чем тот, который был запомнен ранее.
Пусть — запомненный сегмент, а — cуффикс, совпавший во время текущей попытки, такой что — суффикс . Тогда — суффикс , два символа и встречаются на расстоянии в тексте, и суффикс длины имеет период длины , а значит не может перекрыть оба появления символов и в тексте. Наименьший возможный сдвиг имеет длину (его мы и называем турбо-сдвигом).Применение турбо-сдвига в случае
При
, если сдвиг плохого символа больше, то совершаемый сдвиг будет больше либо равен . В этом случае символы и различны, так как мы предположили, что предыдущий сдвиг был сдвигом хорошего суффикса. Тогда сдвиг больший, чем турбо-сдвиг, но меньший совместит и с одним и тем же символом . Значит, если сдвиг плохого символа больше, то мы можем применить сдвиг больший либо равный .Нельзя совместить символы
с одним и тем же символом .Псевдокод
Стадия препроцессинга совпадает со стадией препроцессинга в алгоритме Бойера-Мура.
В сам алгоритм добавляется обработка турбо-сдвигов.
function TBM(char[] x, char[] y, int n, int m) int n = length(y) int m = length(x) int i = 0 int u = 0 int shift = m if (m == 0) return //Предварительные вычисления int bmBc[] = preBmBc(x, m) int bmGs[] = preBmGs(x, m) while (i <= n - m) int j = m - 1 while (j >= 0 and x[j] == y[i + j]) --j if (u != 0 and j == m - 1 - shift) j -= u if (j < 0) print(i) shift = bm_gs[0] u = m - shift else int v = m - 1 - j int turbo_shift = u - v int bc_shift = bm_bc[y[i + j]] - m + j + 1 shift = max(turbo_shift, bc_shift, bm_gs[j + 1]) if (shift == bm_gs[j + 1]) u = min((m - shift), v) else if (turbo_shift < bc_shift) shift = min(shift, (u + 1)) u = 0 i += shift
Асимптотика
- Фаза препроцессинга требует времени и памяти, где — размер алфавита.
- Фаза поиска требует времени.
- В худшем случае поиск требует сравнений.