Поиск подстроки в строке с использованием хеширования. Алгоритм Рабина-Карпа — различия между версиями
Vasin (обсуждение | вклад) |
Vasin (обсуждение | вклад) (→Псевдокод) |
||
Строка 27: | Строка 27: | ||
h = hash(s[1..m]) | h = hash(s[1..m]) | ||
'''for''' i = 1 '''to''' n - m + 1 | '''for''' i = 1 '''to''' n - m + 1 | ||
− | '''if''' h = hp | + | '''if''' h == hp |
answer.add(i) | answer.add(i) | ||
− | h = p * h - p<tex>^{m}</tex> * hash(s[i]) + hash(s[i + m]) | + | h = (p * h - p<tex>^{m}</tex> * hash(s[i]) + hash(s[i + m])) mod r |
+ | '''if''' h < 0 | ||
+ | h += r | ||
'''if''' answer.size() == 0 | '''if''' answer.size() == 0 | ||
'''return''' not found | '''return''' not found |
Версия 19:38, 8 июня 2012
Алгоритм Рабина-Карпа предназначен для поиска подстроки в строке.
Метод хеширования
Для решения задачи удобно использовать полиномиальный хеш, так его легко пересчитывать:
, где — это некоторое простое число, а — некоторое большое число, чтобы было меньше коллизий (обычно берётся или , чтобы модуль брался автоматически при переполнении типов). Стоит обратить внимание, что если 2 строчки имеют одинаковый хэш, то они в большинстве таких случаев равны.При удалении первого символа строки и добавлении символа в конец считать хеш новой строки при помощи хеша изначальной строки возможно за
:.
.
Получается :
.Следует учесть, что при получении отрицательного значения необходимо прибавить
.Алгоритм
Алгоритм начинается с подсчета
и .Для
вычисляется и сравнивается с . Если они оказались равны — то считается, что подстрока входит в строку (начиная с позиции ) или проверяется, что подстрока является шаблоном, для этого выбираются и сравниваются случайные символы из строк.Для ускорения работы алгоритма оптимально предпосчитать
.Псевдокод
RabinKarp (s[1..n], p[1..m])
hp = hash(p[1..m])
h = hash(s[1..m])
for i = 1 to n - m + 1
if h == hp
answer.add(i)
h = (p * h - p
* hash(s[i]) + hash(s[i + m])) mod r
if h < 0
h += r
if answer.size() == 0
return not found
else
return answer
Новый хеш
был получен с помощью быстрого пересчёта. Для сохранения корректности алгоритма нужно считать, что — пустой символ.Время работы
Изначальный подсчёт хешей выполняется за
. В цикле всего итераций — каждая выполняется за . Итоговое время работы алгоритма .Литература
Кормен Т., Лейзерсон Ч., Ривест Р. Алгоритмы: построение и анализ. — 2-е изд. — М.: Издательский дом «Вильямс», 2007. — С. 1296.