Поиск подстроки в строке с использованием хеширования. Алгоритм Рабина-Карпа — различия между версиями

Версия 13:51, 10 июня 2012

Алгоритм Рабина-Карпа предназначен для поиска подстроки в строке.

Содержание

1 Метод хеширования
2 Алгоритм
3 Псевдокод
4 Время работы
5 Литература
6 Ссылки

Метод хеширования

Для решения задачи удобно использовать полиномиальный хеш, так его легко пересчитывать: , где [math]p[/math] — это некоторое простое число, а [math]r[/math] — некоторое большое число, чтобы было меньше коллизий (обычно берётся [math]2^{32}[/math] или [math]2^{64}[/math], чтобы модуль брался автоматически при переполнении типов). Стоит обратить внимание, что если 2 строчки имеют одинаковый хэш, то они в большинстве таких случаев равны.

При удалении первого символа строки и добавлении символа в конец считать хеш новой строки при помощи хеша изначальной строки возможно за [math]O(1)[/math]:

.

Получается : .

Следует учесть, что при получении отрицательного значения необходимо прибавить [math]r[/math].

Алгоритм

Алгоритм начинается с подсчета [math]hash(s[1..m])[/math] и [math]hash(p[1..m])[/math].

Для [math]i \in [1..n - m + 1][/math] вычисляется [math]hash(s[i..i + m - 1])[/math] и сравнивается с [math]hash(p[1..m])[/math]. Если они оказались равны, то образец [math]p[/math] содержится содержится в строке [math]s[/math], начиная с позиции [math]i[/math], но в этом случае возможны ложные срабатывания алгоритма. Если требуется свести такие срабатывания к минимуму или исключить вообще, то применяют сравнение некоторых символов из этих строк, которые выбраны случайным образом, или применяют явное сравнение строк, как в наивном алгоритме поиска подстроки в строке. В первом случае проверка произойдет быстрее, но вероятность ложного срабатывания останется хоть и небольшая, во втором случае проверка займет время равное длине образца, но исключит возможность ложного срабатывания.

Для ускорения работы алгоритма оптимально предпосчитать [math]p^{m}[/math].

Псевдокод

 RabinKarp (s[1..n], p[1..m])
      hp = hash(p[1..m])
      h = hash(s[1..m])
      for i = 1 to n - m + 1
           if h == hp
                answer.add(i)
           h = (p * h - p[math]^{m}[/math] * hash(s[i]) + hash(s[i + m])) mod r
           if h < 0
                h += r
      if answer.size() == 0
           return not found
      else
           return answer

Новый хеш [math]h[/math] был получен с помощью быстрого пересчёта. Для сохранения корректности алгоритма нужно считать, что [math]s[n + 1][/math] — пустой символ.

Время работы

Изначальный подсчёт хешей выполняется за [math]O(m)[/math]. В цикле всего [math]n - m + 1[/math] итераций — каждая выполняется за [math]O(1)[/math]. Итоговое время работы алгоритма [math]O(n + m)[/math].

Литература

Кормен Т., Лейзерсон Ч., Ривест Р. Алгоритмы: построение и анализ. — 2-е изд. — М.: Издательский дом «Вильямс», 2007. — С. 1296.

Ссылки

Наивный алгоритм поиска подстроки в строке

@@ Строка 18: / Строка 18: @@
 Алгоритм начинается с подсчета <tex>hash(s[1..m])</tex> и <tex>hash(p[1..m])</tex>.
-Для <tex>i \in [1..n - m + 1]</tex> вычисляется <tex>hash(s[i..i + m - 1])</tex> и сравнивается с <tex>hash(p[1..m])</tex>. Если они оказались равны, то образец <tex>p</tex> содержится содержится в строке <tex>s</tex>, начиная с позиции <tex>i</tex>, но в этом случае возможны ложные срабатывания алгоритма. Если требуется свести такие срабатывания к минимуму или исключить вообще, то применяют сравнение некоторых символов из этих строк, которые выбраны случайным образом, или применяют полное посимвольное сравнение, как в [[Наивный алгоритм поиска подстроки в строке|наивном алгоритме поиска подстроки в строке]]. В первом случае проверка произойдет быстрее, но вероятность ложного срабатывания останется хоть и небольшая, во втором случае проверка займет время равное длине образца, но исключит возможность ложного срабатывания.
+Для <tex>i \in [1..n - m + 1]</tex> вычисляется <tex>hash(s[i..i + m - 1])</tex> и сравнивается с <tex>hash(p[1..m])</tex>. Если они оказались равны, то образец <tex>p</tex> содержится содержится в строке <tex>s</tex>, начиная с позиции <tex>i</tex>, но в этом случае возможны ложные срабатывания алгоритма. Если требуется свести такие срабатывания к минимуму или исключить вообще, то применяют сравнение некоторых символов из этих строк, которые выбраны случайным образом, или применяют явное сравнение строк, как в [[Наивный алгоритм поиска подстроки в строке|наивном алгоритме поиска подстроки в строке]]. В первом случае проверка произойдет быстрее, но вероятность ложного срабатывания останется хоть и небольшая, во втором случае проверка займет время равное длине образца, но исключит возможность ложного срабатывания.
 Для ускорения работы алгоритма оптимально предпосчитать <tex>p^{m}</tex>.

Поиск подстроки в строке с использованием хеширования. Алгоритм Рабина-Карпа — различия между версиями

Версия 13:51, 10 июня 2012

Содержание

Метод хеширования

Алгоритм

Псевдокод

Время работы

Литература

Ссылки

Навигация

Персональные инструменты

Пространства имён

Варианты

Просмотры

Ещё

Поиск

Навигация

Инструменты