Двусторонний алгоритм — различия между версиями
Heatwave (обсуждение | вклад) м (→Описание алгоритма) |
Heatwave (обсуждение | вклад) (→Описание алгоритма) |
||
Строка 23: | Строка 23: | ||
Если <math>(u, v)</math> {{---}} критическое разбиение <math>x</math>, то на позиции <math>|u|</math> в <math>x</math> общий и локальный периоды одинаковы. Двусторонний алгоритм находит критическое разбиение <math>(x_l, x_r)</math> такое, что <math>|x_l| < per(x)</math> и длина <math>|x_l|</math> минимальна. | Если <math>(u, v)</math> {{---}} критическое разбиение <math>x</math>, то на позиции <math>|u|</math> в <math>x</math> общий и локальный периоды одинаковы. Двусторонний алгоритм находит критическое разбиение <math>(x_l, x_r)</math> такое, что <math>|x_l| < per(x)</math> и длина <math>|x_l|</math> минимальна. | ||
Чтобы найти критическое разбиение <math>(x_l, x_r)</math> мы сперва вычислим <math>z</math> {{---}} максимальный суффикс <math>x</math> в порядке <math>\leqslant</math> и максимальный суффикс <math>\widetilde{z}</math> для обратного порядка <math>\geqslant</math>. Затем <math>(x_l, x_r)</math> выбираются так, что <math>|x_l| = \max(|z|, |\widetilde{z}|)</math>. | Чтобы найти критическое разбиение <math>(x_l, x_r)</math> мы сперва вычислим <math>z</math> {{---}} максимальный суффикс <math>x</math> в порядке <math>\leqslant</math> и максимальный суффикс <math>\widetilde{z}</math> для обратного порядка <math>\geqslant</math>. Затем <math>(x_l, x_r)</math> выбираются так, что <math>|x_l| = \max(|z|, |\widetilde{z}|)</math>. | ||
− | + | ||
Фаза поиска в двустороннем алгоритме состоит из сравнения символов <math>x_r</math> слева направо и символов <math>x_l</math> справа налево. Когда происходит несовпадение при просмотре <math>k</math>-го символа в <math>x_r</math>, производится сдвиг длиной <math>k</math>. Когда происходит несовпадение при просмотре <math>x_l</math>, или когда образец встретился в строке, производится сдвиг длиной <math>per(x)</math>. | Фаза поиска в двустороннем алгоритме состоит из сравнения символов <math>x_r</math> слева направо и символов <math>x_l</math> справа налево. Когда происходит несовпадение при просмотре <math>k</math>-го символа в <math>x_r</math>, производится сдвиг длиной <math>k</math>. Когда происходит несовпадение при просмотре <math>x_l</math>, или когда образец встретился в строке, производится сдвиг длиной <math>per(x)</math>. | ||
Такие действия приводят к квадратичной работе алгоритма в худшем случае, но этого можно избежать запоминанием префикса: когда производится сдвиг длиной <math>per(x)</math>, длина совпадающего префикса образца в начале "окна" (а именно <math>m - per(x)</math>) после сдвига запоминается, чтобы не просматривать ее заново при следующем проходе. | Такие действия приводят к квадратичной работе алгоритма в худшем случае, но этого можно избежать запоминанием префикса: когда производится сдвиг длиной <math>per(x)</math>, длина совпадающего префикса образца в начале "окна" (а именно <math>m - per(x)</math>) после сдвига запоминается, чтобы не просматривать ее заново при следующем проходе. | ||
− | |||
− | |||
==Псевдокод== | ==Псевдокод== |
Версия 20:40, 15 июня 2015
Двусторонний алгоритм (англ. Two Way algorithm) — алгоритм поиска подстроки в строке.
Характерные черты
- требует упорядоченный алфавит
- этап предобработки занимает времени и константное количество памяти
- этап поиска за время
- в худшем случае производится сравнений символов
Описание алгоритма
Строка
разбивается на две части и так, что . Затем фаза поиска в двустороннем алгоритме состоит в сравнении символов слева направо, и затем, если на этом первом этапе не происходит несовпадений, в сравнении символов справа налево (второй этап). Фаза предобработки, таким образом, заключается в поиске подходящего разбиения .Определение: |
Пусть
Длина повторения в называется локальным периодом; наименьший локальный период записывается как .Каждое разбиение Разбиение на имеет как минимум одно повторение. Очевидно, что на такое, что называется критическим разбиением . | — разбиение . Повторение в — слово такое, что для него выполнены следующие условия:
Если — критическое разбиение , то на позиции в общий и локальный периоды одинаковы. Двусторонний алгоритм находит критическое разбиение такое, что и длина минимальна.
Чтобы найти критическое разбиение мы сперва вычислим — максимальный суффикс в порядке и максимальный суффикс для обратного порядка . Затем выбираются так, что .
Фаза поиска в двустороннем алгоритме состоит из сравнения символов
слева направо и символов справа налево. Когда происходит несовпадение при просмотре -го символа в , производится сдвиг длиной . Когда происходит несовпадение при просмотре , или когда образец встретился в строке, производится сдвиг длиной . Такие действия приводят к квадратичной работе алгоритма в худшем случае, но этого можно избежать запоминанием префикса: когда производится сдвиг длиной , длина совпадающего префикса образца в начале "окна" (а именно ) после сдвига запоминается, чтобы не просматривать ее заново при следующем проходе.Псевдокод
function twoWaySearch(String pattern, String text): n = pattern.lengthlen1, p1 maxSuffix(pattern, ) len2, p2 maxSuffix(pattern, ) if len1 len2 len = len1 p = p1 else len = len2 p = p2 occurences = pos 0 memPrefix 0 if len < n/2 and pattern[1 len] суффикс pattern[len + 1 len + p] while pos + n text.length i (l, memPrefix) + 1 while i n and pattern[i] text[pos + i] i++ if i n pos pos + (i len, memPrefix p 1) memPrefix 0 else j l while j memPrefix and pattern[j] text[pos + j] j-- if j memPrefix pos occurences pos pos p memPrefix n p else q (len, n len) 1 while pos + n text.length i len + 1 while i n and pattern[i] text[pos i] i++ if i n pos pos i len else j len while j 0 and pattern[j] text[pos j] j-- if j 0 pos occurences pos pos q return occurences