Изменения

← Предыдущая правка

Поиск подстроки в строке с использованием хеширования. Алгоритм Рабина-Карпа

6402 байта добавлено, 19:28, 4 сентября 2022

м

rollbackEdits.php mass rollback

Алгоритм Рабина — -Карпа ~~— это~~ предназначен для [[Наивный алгоритм поиска ~~строки, который ищет шаблон, то есть подстроку,~~ подстроки в ~~тексте используя хеширование~~строке#Постановка задачи| поиска подстроки в строке]].==Метод хеширования==

~~Давайте сначала определимся с~~ [[Наивный алгоритм поиска подстроки в строке]] работает за <tex>O\left(n^2\right)</tex> в худшем случае — слишком долго. Чтобы ускорить этот процесс, можно воспользоваться методом [[Хеш-таблица#Хеширование|хеширования]].{{Определение|definition = Пусть дана строка <tex>s[0..n-1]</tex>. Тогда '''полиномиальным хешем''' (англ. ''polynomial hash'') строки <tex>s</tex> называется число <tex>h = \mathrm{hash}(s[0..n-1]) = p^{0} s[0] + ... + p^{n - 1} s[n-1]</tex>, где <tex>p</tex> — некоторое простое число, а <tex>s[i]</tex> <tex>{-}</tex> код <tex>i</tex>-ого символа строки <tex>s</tex>.}}Проблему переполнения при вычислении хешей довольно больших строк можно решить так <tex>{-}</tex> считать хеши по модулю <tex>r=2^{64}</tex> (или <tex>2^{32}</tex>), чтобы модуль брался автоматически при переполнении типов.

~~Выберем полиномиальный~~ Для работы алгоритма потребуется считать хеш - подстроки <tex>~~hash(~~s[1i..nj]~~) = (p^{n - 1} s[1] + ... + p^{0} s[n])~~</tex> ~~mod <tex>r</tex>, где <tex>p</tex> -~~ . Делать это некоторое простое число, а <tex>r</tex> - некоторое большое число, чтобы было меньше коллизий (обычно берётся <tex>2^{32}</tex> или <tex>2^{64}</tex>, чтобы модуль брался автоматически - при переполнении типов;). Заметим, что если 2 строчки имеют одинаковый хэш, то они с большой вероятностью равны.можно следующим образом:

~~Научимся переходить от одного хеша к другому за~~ Рассмотрим хеш <tex>~~O(1)~~s[0..j]</tex>:

<tex>\mathrm{hash}(s[i 0..j]) = s[0] + p s[1] +...+ p^{i-1} s[i ~~+ m~~ - 1]~~) = hash(~~+ p^{i} s[i] +...i + m p^{j-1} s[j- 1]~~) -~~ + p^{~~m - 1~~j} s[ij]</tex>.

~~<tex>hash(s[i + 1..i + m]) = p \cdot hash(s[i + 1..i + m]) + s[i + m]</tex>.~~Разобьем это выражение на две части:

~~Получается :~~ <tex>\mathrm{hash}(s[~~i + 1~~0..~~i + m~~j]) = (s[0] + p ~~\cdot hash(~~s[i1] +...+ p^{i-1} s[i ~~+ m~~ - 1]) - + (p^{mi} s[i] + ...+ p^{j-1} s[i j-1] + mp^{j} s[j])</tex>.

~~Теперь к самому алгоритму.~~Вынесем из последней скобки множитель <tex>p^{i}</tex>:

~~У нас сеть шаблон -~~ <tex>\mathrm{hash}(s[0..j]) = (s[0] + ps[1] +..~~m]</tex>~~. ~~У нас есть строка~~ + p^{i- ~~<tex>~~1} s[i-1]) + p^{i}(s[i] +..n.+ p^{j-i-1} s[j-1] + p^{j-i} s[j])</tex>~~. Мы хотим найти все вхождения шаблона в строку.~~

~~Давайте посчитаем~~ Выражение в первой скобке есть не что иное, как хеш подстроки <tex>~~hash(~~s[10..mi-1])</tex> и , а во второй — хеш нужной нам подстроки <tex>~~hash(p~~s[1i..mj])</tex>.Итак, мы получили, что:

~~И для~~ <tex>i \in mathrm{hash}(s[10..~~n - m + 1~~j]~~</tex> считаем <tex>~~) = \mathrm{hash}(s[i0..i ~~+ m~~ - 1]~~</tex> - сравниваем с <tex>~~) + p^{i}\mathrm{hash}(ps[1i..mj])</tex>. Если они получаются равными - то мы считаем, что подстрока <tex>p</tex> входит в строку <tex>s</tex> (начиная с позиции <tex>i</tex>;).

~~Следует предподсчитать -~~ Отсюда получается следующая формула для <tex>p^\mathrm{mhash}(s[i..j])</tex>.:

~~Псевдо-код:~~ ~~'''1:''' function RabinKarp~~<tex>\mathrm{hash}(~~string~~ s[1i..nj]~~, string~~ ) = (1/p~~[1..m]~~^{i}) ~~'''2:''' hp :=~~ (\mathrm{hash}(ps[10..mj]) ~~'''3:''' h :=~~ - \mathrm{hash}(s[10..~~m])ы~~ ~~'''4:''' for~~ i ~~from 1 to (n~~-m+1])) ~~'''5:''' if h = hp~~ ~~'''6:''' add i~~ ~~'''7:''' h := p <tex>\cdot</tex> h - <tex>p^{m}~~</tex>~~s[i] + s[i + m]~~ ~~'''8:''' return not found~~

~~7 строка была получена~~ Однако, как видно из формулы, чтобы уметь считать хеш для всех подстрок начинающихся с ~~помощью быстрого пересчёта хеша. Мы считаем~~<tex>i</tex>, ~~что~~ нужно предпосчитать все <tex>sp^{i}</tex> для <tex>i \in [0..n + - 1]</tex> . Это займет много памяти. Но поскольку нам нужны только подстроки размером <tex>m</tex> <tex>{-}</tex> мы можем подсчитать хеш подстроки <tex>s[0..m- ~~пустой символ~~1]</tex>, а затем пересчитывать хеши для всех <tex>i \in [0..n - m]</tex> за <tex>O(1)</tex> следующим образом:

~~Посчитаем время работы~~<tex>\mathrm{hash}(s[i + 1..i + m - 1]) = (\mathrm{hash}(s[i..i + m - 1]) - p^{m - 1} s[i]) \bmod r</tex>.

<tex>\mathrm{hash}(s[i + 1..i + m]) = (p \cdot \mathrm{hash}(s[i + 1..i + m - 1]) + s[i + m]) \bmod r</tex>. Получается : <tex>\mathrm{hash}(s[i + 1..i + m]) = (p \cdot \mathrm{hash}(s[i..i + m - 1]) - p^{i} s[i] + s[i + m]) \bmod r</tex>. ==Решение== ===Алгоритм=== Алгоритм начинается с подсчета <tex>\mathrm{hash}(s[0..m-1])</tex> и <tex>\mathrm{hash}(p[0..m-1])</tex>, а также с подсчета <tex>p^{m}</tex>, для ускорения ответов на запрос. Для <tex>i \in [0..n - m]</tex> вычисляется <tex>\mathrm{hash}(s[i..i + m - 1])</tex> и сравнивается с <tex>\mathrm{hash}(p[0..m-1])</tex>. Если они оказались равны, то образец <tex>p</tex> скорее всего содержится в строке <tex>s</tex> начиная с позиции <tex>i</tex>, хотя возможны и ложные срабатывания алгоритма. Если требуется свести такие срабатывания к минимуму или исключить вовсе, то применяют сравнение некоторых символов из этих строк, которые выбраны случайным образом, или применяют явное сравнение строк, как в [[Наивный алгоритм поиска подстроки в строке|наивном алгоритме поиска подстроки в строке]]. В первом случае проверка произойдет быстрее, но вероятность ложного срабатывания, хоть и небольшая, останется. Во втором случае проверка займет время, равное длине образца, но полностью исключит возможность ложного срабатывания. Если требуется найти индексы вхождения нескольких образцов, или сравнить две строки <tex>{-}</tex> выгоднее будет предпосчитать все степени <tex>p</tex>, а также хеши всех префиксов строки <tex>s</tex>. ===Псевдокод===Приведем пример псевдокода, который находит все вхождения строки <tex>w</tex> в строку <tex>s</tex> и возвращает массив позиций, откуда начинаются вхождения. '''vector<int>''' rabinKarp (s : '''string''', w : '''string'''): '''vector<int>''' answer '''int''' n = s.length '''int''' m = w.length '''int''' hashS = hash(s[0..m - 1]) '''int''' hashW = hash(w[0..m - 1]) '''for''' i = 0 '''to''' n - m '''if''' hashS == hashW answer.add(i) hashS = (p * hashS - p<tex>^{m}</tex> * hash(s[i]) + hash(s[i + m])) '''mod''' r <font color=green>// r — некоторое большое число, p — некоторое просто число</font> '''return''' answer Новый хеш <tex>hashS</tex> был получен с помощью быстрого пересчёта. Для сохранения корректности алгоритма нужно считать, что <tex>s[n + 1]</tex> {{---}} пустой символ. ===Время работы=== Изначальный подсчёт хешей - выполняется за <tex>O(m)</tex>. Каждая итерация выполняется за <tex>O(1)</tex>, В цикле всего <tex>n - m + 1</tex> итераций ~~- каждая выполняется за~~ . Итоговое время работы алгоритма <tex>O(n + m)</tex>. Однако, если требуется исключить ложные срабатывания алгоритма полностью, т.е. придется проверить все полученные позиции вхождения на истинность, то в худшем случае итоговое время работы алгоритма будет <tex>O(1n</tex> <tex>\cdot</tex> <tex>m)</tex>. ~~Итого -~~ == Сравнение с другими алгоритмами ==Преимущества:* Быстрая скорость работы — <tex>O(n + m)</tex>, где <tex>n</tex> — длина строки, <tex>m</tex> — длина образца;* Простая и понятная реализация; Недостатки:* Возможно подобрать входные данные так, что количество ложных срабатываний будет недопустимо большим; == См. также ==*[[Наивный алгоритм поиска подстроки в строке]]*[[Поиск наибольшей общей подстроки двух строк с использованием хеширования]] == Источники информации ==* ''Кормен, Томас Х., Лейзерсон, Чарльз И., Ривест, Рональд Л., Штайн Клиффорд'' '''Алгоритмы: построение и анализ''', 3-е издание. Пер. с англ. — М.:Издательский дом "Вильямс", 2014. — 1328 с.: ил. — ISBN 978-5-8459-1794-2 (рус.) — страницы 1036–1041. [[Категория:Алгоритмы и структуры данных]][[Категория:Поиск подстроки в строке]][[Категория: Хеширование]][[Категория:Точный поиск]]

Maintenance script

1632

правки

Изменения

Поиск подстроки в строке с использованием хеширования. Алгоритм Рабина-Карпа

Навигация

Персональные инструменты

Пространства имён

Варианты

Просмотры

Ещё

Поиск

Навигация

Инструменты