Поиск подстроки в строке с использованием хеширования. Алгоритм Рабина-Карпа
Алгоритм Рабина-Карпа предназначен для поиска подстроки в строке.
Содержание
Метод хеширования
Наивный алгоритм поиска подстроки в строке работает за в худшем случае — слишком долго. Чтобы ускорить этот процесс, можно воспользоваться методом хеширования.
Определение: |
Пусть дана строка | . Тогда полиномиальным хешем (англ. polynomial hash) строки называется число , где — некоторое простое число, а код -ого символа строки .
Проблему переполнения при вычислении хешей довольно больших строк можно решить так
считать хеши по модулю (или ), чтобы модуль брался автоматически при переполнении типов.Для работы алгоритма потребуется считать хеш подстроки
. Делать это можно следующим образом:Рассмотрим хеш
:
Разобьем это выражение на две части:
Вынесем из последней скобки множитель
:
Выражение в первой скобке есть не что иное, как хеш подстроки
, а во второй — хеш нужной нам подстроки . Итак, мы получили, что:
Отсюда получается следующая формула для
:
Однако, как видно из формулы, чтобы уметь считать хеш для всех подстрок начинающихся с
, нужно предпосчитать все для . Это займет много памяти. Но поскольку нам нужны только подстроки размером мы можем подсчитать хеш подстроки , а затем пересчитывать хеши для всех за следующим образом:.
.
Получается :
.Решение
Алгоритм
Алгоритм начинается с подсчета
и , а также с подсчета , для ускорения ответов на запрос.Для наивном алгоритме поиска подстроки в строке. В первом случае проверка произойдет быстрее, но вероятность ложного срабатывания, хоть и небольшая, останется. Во втором случае проверка займет время, равное длине образца, но полностью исключит возможность ложного срабатывания.
вычисляется и сравнивается с . Если они оказались равны, то образец скорее всего содержится в строке начиная с позиции , хотя возможны и ложные срабатывания алгоритма. Если требуется свести такие срабатывания к минимуму или исключить вовсе, то применяют сравнение некоторых символов из этих строк, которые выбраны случайным образом, или применяют явное сравнение строк, как вЕсли требуется найти индексы вхождения нескольких образцов, или сравнить две строки
выгоднее будет предпосчитать все степени , а также хеши всех префиксов строки .Псевдокод
Приведем пример псевдокода, который находит все вхождения строки
в строку и возвращает массив позиций, откуда начинаются вхождения.vector<int> rabinKarp (s : string, w : string):
vector<int> answer
int n = s.length
int m = w.length
int hashS = hash(s[0..m - 1])
int hashW = hash(w[0..m - 1])
for i = 0 to n - m
if hashS == hashW
answer.add(i)
hashS = (p * hashS - p
* hash(s[i]) + hash(s[i + m])) mod r // r — некоторое большое число, p — некоторое просто число
return answer
Новый хеш
был получен с помощью быстрого пересчёта. Для сохранения корректности алгоритма нужно считать, что — пустой символ.Время работы
Изначальный подсчёт хешей выполняется за
.Каждая итерация выполняется за
, В цикле всего итераций.Итоговое время работы алгоритма
.Однако, если требуется исключить ложные срабатывания алгоритма полностью, т.е. придется проверить все полученные позиции вхождения на истинность, то в худшем случае итоговое время работы алгоритма будет
.Сравнение с другими алгоритмами
Преимущества:
- Быстрая скорость работы — , где — длина строки, — длина образца;
- Простая и понятная реализация;
Недостатки:
- Возможно подобрать входные данные так, что количество ложных срабатываний будет недопустимо большим;
См. также
- Наивный алгоритм поиска подстроки в строке
- Поиск наибольшей общей подстроки двух строк с использованием хеширования
Источники информации
- Кормен, Томас Х., Лейзерсон, Чарльз И., Ривест, Рональд Л., Штайн Клиффорд Алгоритмы: построение и анализ, 3-е издание. Пер. с англ. — М.:Издательский дом "Вильямс", 2014. — 1328 с.: ил. — ISBN 978-5-8459-1794-2 (рус.) — страницы 1036–1041.