Турбо-алгоритм Бойера-Мура — различия между версиями

Материал из Викиконспекты
Перейти к: навигация, поиск
Строка 7: Строка 7:
 
Турбо - сдвиг может произойти, если мы обнаружим, что суффикс образца, который сходится с текстом, короче, чем тот, который был запомнен ранее.
 
Турбо - сдвиг может произойти, если мы обнаружим, что суффикс образца, который сходится с текстом, короче, чем тот, который был запомнен ранее.
  
Пусть <tex>u</tex> - запомненный сегмент, а <tex>v</tex> - cуффикс, совпавший во время текущей попытки, такой что <tex>uzv</tex> - суффикс <tex>x</tex>. Тогда <tex>av</tex> - суффикс <tex>x</tex>, два символа <tex>а</tex> и <tex>b</tex> встречаются на расстоянии p в тексте, и суффикс x длины |uzv| имеет период длины p, а значит не может перекрыть оба появления символов а и b в тексте. Наименьший возможный сдвиг имеет длину |u| - |v| ( его мы и называем турбо - сдвигом ).
+
Пусть <tex>u</tex> - запомненный сегмент, а <tex>v</tex> - cуффикс, совпавший во время текущей попытки, такой что <tex>uzv</tex> - суффикс <tex>x</tex>. Тогда <tex>av</tex> - суффикс <tex>x</tex>, два символа <tex>a</tex> и <tex>b</tex> встречаются на расстоянии <tex>p</tex> в тексте, и суффикс <tex>x</tex> длины <tex>|uzv|</tex> имеет период длины <tex>p</tex>, а значит не может перекрыть оба появления символов <tex>a</tex> и <tex>b</tex> в тексте. Наименьший возможный сдвиг имеет длину <tex>|u| - |v|</tex> ( его мы и называем турбо - сдвигом ).
  
 +
===Применение турбо-сдвига в случае <tex>|v| < |u|</tex>===
 +
При <tex>|v| < |u|</tex>, если сдвиг плохого символа больше, то совершаемый сдвиг будет больше либо равен <tex>|u| - 1</tex>. В этом случае символы <tex>c</tex> и <tex>d</tex> различны, так как мы предположили, что предыдущий сдвиг был сдвигом хорошего суффикса. Тогда сдвиг больший, чем турбо-сдвиг, но меньший <tex>|u| + 1</tex> совместит <tex>c</tex> и <tex>d</tex> с одним и тем же символом <tex>v</tex>. Значит, если сдвиг плохого символа больше, то мы можем применить сдвиг больший, либо равный <tex>|u| + 1</tex>.
 +
Нельзя совместить символы <tex>c \neq d</tex> с одним и тем же символом v.
 
==Псевдокод==
 
==Псевдокод==
 
==Асимптотики==
 
==Асимптотики==
Строка 15: Строка 18:
 
* [[Алгоритм Райта]]
 
* [[Алгоритм Райта]]
 
* [[Алгоритм Кнута-Морриса-Пратта|Алгоритм Кнута-Морриса-Пратта]]
 
* [[Алгоритм Кнута-Морриса-Пратта|Алгоритм Кнута-Морриса-Пратта]]
*[[Алгоритм Апостолико-Крочемора|Алгоритм Апостолико-Крочемора]]
+
* [[Алгоритм Апостолико-Крочемора|Алгоритм Апостолико-Крочемора]]
 
==Ссылки==
 
==Ссылки==
 
* [[wikipedia:ru:Алгоритм_Бойера_—_Мура|Википедия {{---}} Алгоритм Бойера-Мура]]
 
* [[wikipedia:ru:Алгоритм_Бойера_—_Мура|Википедия {{---}} Алгоритм Бойера-Мура]]
 
* [[wikipedia:Boyer–Moore_string_search_algorithm|Wikipedia {{---}} Boyer–Moore string search algorithm]]
 
* [[wikipedia:Boyer–Moore_string_search_algorithm|Wikipedia {{---}} Boyer–Moore string search algorithm]]
 
* [http://www-igm.univ-mlv.fr/~lecroq/string/node15.html#SECTION00150 Turbo Boyer-Moore algorithm]
 
* [http://www-igm.univ-mlv.fr/~lecroq/string/node15.html#SECTION00150 Turbo Boyer-Moore algorithm]
 +
* [http://algolist.manual.ru/search/esearch/turbo_bm.php Турбо Боуер-Мур]

Версия 21:44, 31 марта 2016

Алгоритм Бойера-Мура за линейное время(Турбо-алгоритм) является улучшением алгоритма Бойера-Мура. Алгоритм, разработанный группой учёных во главе с М.Крочемором предлагает другой подход к коротким алфавитам и заодно решает вторую проблему — квадратичную сложность в худшем случае.

Алгоритм

Турбо-алгоритм Бойера-Мура не нуждается в дополнительном препроцессинге и требует только постоянную дополнительную память относительно оригинального алгоритма Бойера-Мура. Он состоит в запоминании сегмента текста, который соответствует суффикс шаблона во время последней попытки (и только тогда, когда сдвиг хорошего суффикса был выполнен). Эта методика представляет два преимущества:

  1. можно перепрыгнуть через этот сегмент;
  2. она может позволить выполнение 'турбо-сдвига'.

Турбо - сдвиг может произойти, если мы обнаружим, что суффикс образца, который сходится с текстом, короче, чем тот, который был запомнен ранее.

Пусть [math]u[/math] - запомненный сегмент, а [math]v[/math] - cуффикс, совпавший во время текущей попытки, такой что [math]uzv[/math] - суффикс [math]x[/math]. Тогда [math]av[/math] - суффикс [math]x[/math], два символа [math]a[/math] и [math]b[/math] встречаются на расстоянии [math]p[/math] в тексте, и суффикс [math]x[/math] длины [math]|uzv|[/math] имеет период длины [math]p[/math], а значит не может перекрыть оба появления символов [math]a[/math] и [math]b[/math] в тексте. Наименьший возможный сдвиг имеет длину [math]|u| - |v|[/math] ( его мы и называем турбо - сдвигом ).

Применение турбо-сдвига в случае [math]|v| \lt |u|[/math]

При [math]|v| \lt |u|[/math], если сдвиг плохого символа больше, то совершаемый сдвиг будет больше либо равен [math]|u| - 1[/math]. В этом случае символы [math]c[/math] и [math]d[/math] различны, так как мы предположили, что предыдущий сдвиг был сдвигом хорошего суффикса. Тогда сдвиг больший, чем турбо-сдвиг, но меньший [math]|u| + 1[/math] совместит [math]c[/math] и [math]d[/math] с одним и тем же символом [math]v[/math]. Значит, если сдвиг плохого символа больше, то мы можем применить сдвиг больший, либо равный [math]|u| + 1[/math]. Нельзя совместить символы [math]c \neq d[/math] с одним и тем же символом v.

Псевдокод

Асимптотики

См. также

Ссылки