Поиск подстроки в строке с использованием хеширования. Алгоритм Рабина-Карпа — различия между версиями

Версия 13:36, 4 апреля 2012

Алгоритм Рабина — Карпа — это алгоритм поиска подстроки в строке, используя хеширование.

Содержание

1 Метод хеширования
2 Алгоритм
3 Псевдокод
4 Время работы
5 Литература

Метод хеширования

Следует использовать полиномиальный хеш - mod [math]r[/math], где [math]p[/math] - это некоторое простое число, а [math]r[/math] - некоторое большое число, чтобы было меньше коллизий (обычно берётся [math]2^{32}[/math] или [math]2^{64}[/math], чтобы модуль брался автоматически - при переполнении типов. Стоит обратить внимание, что если 2 строчки имеют одинаковый хэш, то они в большинстве таких случаев равны.

При удалении первого символа строки и добавлении символа в конец считать хеш новой строки при помощи хеша изначальной строки возможно за [math]O(1)[/math]:

.

Получается : .

Алгоритм

Есть шаблон - [math]p[1..m][/math] и строка - [math]s[1..n][/math]. Нужно найти все вхождения шаблона в строку.

В начале вычисляются [math]hash(s[1..m])[/math] и [math]hash(p[1..m])[/math].

Для [math]i \in [1..n - m + 1][/math] вычисляется [math]hash(s[i..i + m - 1][/math] и сравнивается с [math]hash(p[1..m])[/math]. Если они получаются равными - то считается, что подстрока [math]p[/math] входит в строку [math]s[/math] (начиная с позиции [math]i[/math];) или проверяется, что подстрока является шаблоном, для этого выбираются и сравниваются случайные символы из строк.

Следует предподсчитать [math]p^{m}[/math].

Псевдокод

 RabinKarp (s[1..n], p[1..m])
      hp = hash(p[1..m])
      h = hash(s[1..m])
      for i = 1 to n - m + 1
           if h = hp
                answer.add(i)
           h = p * h - p[math]^{m}[/math] * hash(s[i]) + hash(s[i + m)
      if answer.size() == 0
           return not found
      else
           return answer

Новый хеш h был получен с помощью быстрого пересчёта. Следует считать, что s[n + 1] - пустой символ.

Время работы

Изначальный подсчёт хешей - [math]O(m)[/math]. В цикле всего [math]n - m + 1[/math] итераций - каждая выполняется за [math]O(1)[/math]. Итого - [math]O(n + m)[/math].

Литература

Кормен Т., Лейзерсон Ч., Ривест Р. Алгоритмы: построение и анализ. — 2-е изд. — М.: Издательский дом «Вильямс», 2007. — С. 1296.

@@ Строка 24: / Строка 24: @@
 ==Псевдокод==
-   '''Rabin_Karp''' (<tex>s[1..n]</tex>, <tex>p[1..m]</tex>)
+   '''RabinKarp''' (s[1..n], p[1..m])
-        <tex>hp \leftarrow hash(p[1..m])</tex>
+        hp = hash(p[1..m])
-        <tex>h \leftarrow hash(s[1..m])</tex>
+        h = hash(s[1..m])
-        '''for''' <tex>i \leftarrow 1</tex> '''to''' <tex>n - m + 1</tex>
+        '''for''' i = 1 '''to''' n - m + 1
-             '''if''' <tex>h = hp</tex>
+             '''if''' h = hp
-                  <tex>answer.add(i)</tex>
+                  answer.add(i)
-             <tex>h \leftarrow p \cdot h - p^{m} \cdot hash(s[i]) + hash(s[i + m])</tex>
+             h = p * h - p<tex>^{m}</tex> * hash(s[i]) + hash(s[i + m)
-        '''if''' <tex>answer.size = 0</tex>
+        '''if''' answer.size() == 0
-             '''return''' <tex>not</tex> <tex>found</tex>
+             '''return''' not found
         '''else'''
-             '''return''' <tex>answer</tex>
+             '''return''' answer
-Новый хеш <tex>h</tex> был получен с помощью быстрого пересчёта. Следует считать, что <tex>s[n + 1]</tex> - пустой символ.
+Новый хеш h был получен с помощью быстрого пересчёта. Следует считать, что s[n + 1] - пустой символ.
 ==Время работы==

Поиск подстроки в строке с использованием хеширования. Алгоритм Рабина-Карпа — различия между версиями

Версия 13:36, 4 апреля 2012

Содержание

Метод хеширования

Алгоритм

Псевдокод

Время работы

Литература

Навигация

Персональные инструменты

Пространства имён

Варианты

Просмотры

Ещё

Поиск

Навигация

Инструменты