Алгоритм Бойера-Мура
Алгоритм Бойера-Мура, разработанный двумя учеными — Бойером (Robert S. Boyer) и Муром (J. Strother Moore), считается наиболее быстрым среди алгоритмов общего назначения, предназначенных для поиска подстроки в строке. Важной особенностью алгоритма является то, что он выполняет сравнения в шаблоне справа налево в отличии от многих других алгоритмов.
Алгоритм Бойера-Мура считается наиболее эффективным алгоритмом поиска шаблонов в стандартных приложениях и командах, таких как Ctrl+F в браузерах и текстовых редакторах.
Алгоритм
Алгоритм сравнивает символы шаблона
справа налево, начиная с самого правого, один за другим с символами исходной строки . Если символы совпадают, производится сравнение предпоследнего символа шаблона и так до конца. Если все символы шаблона совпали с наложенными символами строки, значит, подстрока найдена, и поиск окончен. В случае несовпадения какого-либо символа (или полного совпадения всего шаблона) он использует две предварительно вычисляемых эвристических функций, чтобы сдвинуть позицию для начала сравнения вправо.Алфавит обозначим буквой
.Пусть
, иПредположим, что в процессе сравнения возникает несовпадение между символом
шаблона и символом исходного текста при проверке в позиции . Тогда и , и символов шаблона уже совпало.Правило сдвига хорошего суффикса
Если при сравнении текста и шаблона совпало один или больше символов, шаблон сдвигается в зависимости от того, какой суффикс совпал.
Если существует такая подстрока
, что она полностью входит в и идет справа от символа, отличного от , то сдвиг идет на всю длину этого суффикса. Ясно, что в таком случае имеет смысл начинать сравнение не с очередного символа от конца , а с левого конца подстроки равной суффиксу шаблона из-за того, другие подстроки явно уже не подойдут.Если не существует такой подстроки, то смещение состоит в выравнивании самого длинного суффикса
подстроки с соответствующим префиксом . Из-за того, что мы не смогли найти такую подстроку, то, очевидно, что ни один суффикс шаблона уже не будет лежать в подстроке , поэтому единственный вариант, что в эту подстроку попадет префикс.Правило сдвига плохого символа
В таблице плохих символов указывается последняя позиция в шаблоне (исключая последнюю букву) каждого из символов алфавита. Для всех символов, не вошедших в шаблон, пишем
. Предположим, что у нас не совпал символ из текста на очередном шаге с символом из шаблона. Очевидно, что в таком случае мы можем сдвинуть шаблон до первого вхождения этого символа в шаблоне, потому что совпадений других символов точно не может быть. Если в шаблоне такого символа нет, то можно сдвинуть весь шаблон полностью.Если символ исходного текста
встречается в шаблоне , то происходит его выравнивание с его самым правым появлением в подстроке .Если
не встречается в шаблоне , то ни одно вхождение в не может включать в себя , и левый конец окна сравнения совмещен с символом непосредственно идущим после , то есть символ .Обратите внимание, что сдвиг плохого символа может быть отрицательным.
Формальное определение
Таким образом для сдвига позиции начала сравнения алгоритм Бойера-Мура выбирает между двумя эвристическими функциями, называемыми эвристиками хорошего суффикса и плохого символа (иногда они называются эвристиками совпавшего суффикса и стоп-символа). Так как функции эвристические, то выбор между ними простой — ищется такое итоговое значение, чтобы мы не проверяли максимальное число позиций и при этом нашли все подстроки равные шаблону. Исходя из ранее приведенных свойств этих функций берется значение равное максимуму между сдвигом хорошего суффикса и сдвигом плохого символа.
Теперь определим две функции сдвигов более формально следующим образом:
Пусть значения функции сдвига хорошего суффикса хранятся в массиве
размером .Определим два условия:
- : для каждого такого, что выполняется или
- : если , то выполняется
Тогда для всех
таких, что выполняется . А значение определим, как длину периода шаблона .Для вычисления bmGs будем использовать массив
, определенный так: для всех таких, что выполняетсяСдвиги плохих символов будем хранить в массиве
размером . Для каждого символа из :Массивы
и вычисляются за времени до основной фазы поиска и требуют, очевидно, памяти.Псевдокод
Константой
обозначим размер нашего алфавита.Функция для вычисления таблицы сдвигов плохих символов. Она будет равна длине шаблона для всех символов, которые не встречаются в шаблоне, и порядковому номеру с конца для остальных (кроме последнего, для него тоже берется длина шаблона). Вычисляется прямо по определению за
int[] preBmBc(string x, int m): int bmBc[ASIZE] // Значение по умолчанию = m for i = 0 .. ASIZE-1 bmBc[i] = m for i = 0 .. m - 2 bmBc[x[i]] = m - i - 1 return bmBc
Функция для вычисления таблицы суффиксов. Она находит для каждой позиции в шаблоне
максимальную длину суффикса , который повторяется в строке и заканчивается в данной позиции.Примеры:
Строка | Значение функции |
---|---|
abcabcabc | 0, 0, 3, 0, 0, 6, 0, 0, 9 |
abcabcc | 0, 0, 1, 0, 0, 1, 7 |
Также, очевидно, что значение функции для последнего элемента будет равно длине всей строки.
int[] suffixes(string x, int m): int f = 0 int suff[m] suff[m - 1] = m int g = m - 1 for i = m - 2 .. 0 if i > g and suff[i + m - 1 - f] < i - g suff[i] = suff[i + m - 1 - f] else if i < g g = i f = i while g >= 0 and x[g] == x[g + m - 1 - f] --g suff[i] = f - g return suff
Функция для вычисления сдвигов хороших суффиксов
void preBmGs(string x, int m): int i, j, suff[XSIZE] int bmGs[] suff = suffixes(x, m) for i = 0 .. m - 1 bmGs[i] = m j = 0 for i = m - 1 .. 0 if suff[i] == i + 1 while j < m - 1 - i if bmGs[j] == m bmGs[j] = m - 1 - i ++j for i = 0 .. m - 2 bmGs[m - 1 - suff[i]] = m - 1 - i
Основная функция алгоритма Бойера-Мура
void BM(string x, int m, string y, int n): int bmGs[m] int bmBc[ASIZE] //Предварительные вычисления bmGs = preBmGs(x, m) bmBc = preBmBc(x, m) //Поиск подстроки int j = 0 while j <= n - m int i = m - 1 while i >= 0 and x[i] == y[i + j] --i if i < 0 OUTPUT(j) // Найдена подстрока в позиции j j += bmGs[0] //Очевидно, что можем сделать сдвиг на период, потому что там явно не будет совпадений. else j += MAX(bmGs[i], bmBc[y[i + j]] - m + 1 + i)
Асимптотики
- Фаза предварительных вычислений требует времени и памяти
- В худшем случае поиск требует сравнений.
- В лучшем случае требует сравнений.
Пример: Исходный текст
и шаблон . Из-за того, что все символы из текста повторяются в шаблоне раз, эвристика хорошего суффикса будет пытаться сопоставить шаблон в каждой позиции (суммарно, раз), а эвристика плохого символа в каждой позиции будет двигать строку раз. Итого, .где
— длина исходного текста, — длина шаблона, — размер алфавита.Варианты
Алгоритм Бойера — Мура — Хорспула
Этот алгоритм работает лучше Бойера-Мура на случайных текстах — для него оценка в среднем лучше. Алгоритм использует только сдвиги плохих символов, при этом за такой символ берётся символ из исходного текста, который соответствует последнему символу шаблона, независимо от того, где случилось несовпадение. Поскольку реальные поисковые образцы редко имеют равномерное распределение, алгоритм Бойера-Мура-Хорспула может дать как выигрыш, так и проигрыш по сравнению с стандартной реализацией.
Алгоритм Чжу — Такаоки
На коротких алфавитах сдвиги плохих символов не помогают уже на коротких суффиксах. Простейший способ улучшить работу алгоритма в таких условиях — вместо одного плохого символа строить таблицу для пары символов: несовпавшего и идущего перед ним. Такой алгоритм получил собственное имя: алгоритм Чжу — Такаоки. На предварительную обработку расходуется
времени.Сравнение с другими алгоритмами
Достоинства
- Алгоритм Бойера-Мура на хороших данных очень быстр, а вероятность появления плохих данных крайне мала. Поэтому он оптимален в большинстве случаев, когда нет возможности провести предварительную обработку текста, в котором проводится поиск.
- На больших алфавитах (относительно длины шаблона) алгоритм чрезвычайно быстрый и требует намного меньше памяти относительно алгоритма Ахо-Корасик.
- Алгоритм проще большинства алгоритмов поиска (при некоторых реализациях объем кода сравним с наивным поиском)
- Позволяет добавить множество модификаций, таких как поиск подстроки, включающей любой символ (?) (но для реализации множества символов (*) не походит, так как длина шаблона должна быть известна заранее).
Недостатки
- Алгоритмы семейства Бойера-Мура не расширяются до приблизительного поиска, поиска любой строки из нескольких.
- На больших алфавитах (например, Юникод) может занимать много памяти. В таких случаях либо обходятся хэш-таблицами, либо дробят алфавит, рассматривая, например, 4-байтовый символ как пару двухбайтовых.
- На искусственно подобранных неудачных текстах (например, шаблон ) скорость алгоритма Бойера-Мура серьёзно снижается.