Алгоритм Shift-Or
В 1990ые годы Рикардо Беза-Йетс (англ. Ricardo Baeza-Yates) и Гастон Гоннет (англ. Gaston Gonnet) изобрели простой битовый метод, эффективно решающий задачу точного поиска малых образцов (длиной в типичное английское слово). Они назвали его методом
, хотя, исходя из самого алгоритма, естественней назвать его . Также алгоритм известен как bitap алгоритм и алгоритм Беза-Йетса-Гоннета.Алгоритм
Пусть
– шаблон длины , – текст длины .Нам потребуется двоичный массив
размером , в котором индекс пробегает значения от до , а индекс – от до . { , если первые символов точно совпадают с символами , кончаясь на позиции ; — иначе }То есть
тогда и только тогда, когда . Например, пусть , . Тогда , остальные . Получаем, что элементы, равные , в строчке показывают все места в , где заканчиватся копии , а столбец показывает все префиксы , которые заканчиваются в позиции строки . тогда, когда вхождение заканчивается в позиции строки . То есть вычисление последней строки решает задачу точного совпадения.Построение массива
. Создадим для каждого символа алфавита двоичный вектор длины . равно в тех позициях , где стоит символ . Например, ,Определим
как вектор, полученный сдвигом вектора для столбца вниз на одну позицию и записью в первой позиции. Старое значение в позиции теряется. То есть состоит из , к которой приписаны первые битов столбца .Из определения, нулевой столбец
состоит из нулей. Элементы любого другого столбца получаются из столбца и вектора для символа . А именно, вектор для столбца получается операцией побитового логического умножения вектора и вектора . Например, …Псевдокод
algorithm bitap_search(text : string, pattern : string) returns string m := length(pattern) if m == 0 return text /* Initialize the bit array R. */ R := new array[m+1] of bit, initially all 0 R[0] = 1 for i = 0; i < length(text); i += 1: /* Update the bit array. */ for k = m; k >= 1; k -= 1: R[k] = R[k-1] & (text[i] == pattern[k-1]) if R[m]: return (text+i - m) + 1 return nil
Корректность
Докажем, что метод Shift-Or правильно вычисляет элементы массива M. Заметим, что для любого I > 1элемент M(i, j) = 1 т и тт, когда p[1..i – 1] совпадает с t[j – i + 1..j], а символ p[i] совпадает с t[j]. Первое условие выполнено, когда элемент массива M(i – 1, j – 1) = 1, а второе — когда i-ый бит вектора U для символа t[j] равен 1. После сдвига столбца j – 1 алгоритм логически умножает элемент M(i – 1, j – 1) столбца j – 1 на элемент i вектора U(t[j]). Следовательно, все элементы M вычисляются правильно и алгоритм находит все вхождения образца в текст.
Эффективность
Сложность алгоритма составляет O(nm), на препроцессинг — построение массива U требуется O(сигма*n) операций и памяти. Если же n не превышает длину машинного слова, то сложность получается O(m) и O(n + сигма) соответсвенно.