Поиск наибольшей общей подстроки двух строк с использованием хеширования — различия между версиями

Версия 16:39, 12 сентября 2012

Содержание

1 Постановка задачи
2 Алгоритм
3 Псевдокод
4 Время работы
5 Литература

Постановка задачи

Имеются строки [math]s[/math] и [math]t[/math] такие, что элементы этих строк [math]-[/math] символы из конечного алфавита [math] \Sigma [/math]. Говорят, что строка [math]z[1 .. m][/math] является подстрокой строки [math]s[1 .. n][/math], если существует такой индекс [math]k \in [0 .. n - m][/math], что для любого [math]i \in [1 .. m][/math] справедливо [math]s[k + i] = z[i][/math]. Требуется найти такую строку [math]z[/math] максимальной длины, что [math]z[/math] является и подстрокой [math]s[/math], и подстрокой [math]t[/math].

Алгоритм

Пусть длина наибольшей общей подстроки будет [math]x[/math]. Заметим, что у строк [math]s[/math] и [math]t[/math] обязательно найдется общая подстрока длины [math]y \in [0 .. x][/math], так как в качестве такой строки можно взять префикс наибольшей общей подстроки. Рассмотрим функцию , которая для [math]i[/math] из области определения равна 1, если у строк [math]s[/math] и [math]t[/math] есть общая подстрока длины [math]i[/math], иначе она равна 0. Согласно замечанию, функция [math]f[/math] должна по мере возрастания [math]i[/math] быть равной 1 до некоторого момента, а затем обращаться в 0. Собственно, максимальное значение, при котором функция принимает значение 1, является длиной наибольшей общей подстроки. Таким образом, требуется с помощью двоичного поиска найти это значение. В ходе работы придется проверять наличие общей подстроки заданной длины. Для этого будем использовать хеширование, чтобы улучшить асимптотику алгоритма. Алгоритм является эвристическим и может выдавать неверный ответ, так как совпадение хешей строк не гарантирует равенство строк. Поэтому нужно выполнить проверку нескольких случайных символов подстрок на совпадение, проиграв при этом по времени работы. Алгоритм работает следующим образом:

1) У строки [math]s[/math] хешируем подстроки заданной длины и полученные хеши записываем в Set.

2) У строки [math]t[/math] хешируем подстроки заданной длины и в случае совпадения хеша с элементом Set проверяем несколько случайных символов подстрок на совпадение.

Хеширование будем производить так же, как и в алгоритме Рабина-Карпа.

Псевдокод

[math]f[/math] — функция, описанная в алгоритме. [math]i[/math] - длина подстроки, найденная с помощью двоичного поиска.

[math]f(i)[/math]
Записываем в [math]S[/math] хэши подстрок строки [math]s[/math] длины [math]i[/math];
for [math]j = 1...|t| - i[/math]
   Считаем хэш от подстоки [math]t[j .. j + i][/math];
   if хэш содержится в [math]S[/math]
     if совпали несколько случайных символов подсток
        return 1;
     else
        continue;
return 0;

Время работы

Проведем оценку асимптотики времени работы предложенного алгоритма. Посмотрим сколько нам потребуется действий на каждом шаге бинарного поиска. Во-первых, хеширование подстрок строки [math]s[/math] и запись их в Set требует [math]O(|s|)[/math] шагов. Во-вторых, хеширование подстрок строки [math]t[/math] и проверка их наличия в Set требует [math]O(|t|)[/math]. Проверка на совпадение нескольких символов подстрок требует константное время. Значит,на каждый шаг бинарного поиска требуется [math]O(max(|s|, |t|))[/math] действий. Заметим, что всего для завершения бинарного поиска потребуется [math]O(\log(\min(|s|, |t|)))[/math] шагов. Следовательно, суммарное время работы алгоритма будет действий.

Литература

Кормен Т., Лейзерсон Ч., Ривест Р. Алгоритмы: построение и анализ. — 2-е изд. — М.: Издательский дом «Вильямс», 2007. — С. 1296.

@@ Строка 14: / Строка 14: @@
 <tex>f</tex> — функция, описанная в алгоритме.
- <tex>i</tex> - длина подстроки, найденная с помощью [[Целочисленный двоичный поиск|двоичного поиска]].
+<tex>i</tex> - длина подстроки, найденная с помощью [[Целочисленный двоичный поиск|двоичного поиска]].
   <tex>f(i)</tex>
   Записываем в <tex>S</tex> хэши подстрок строки <tex>s</tex> длины <tex>i</tex>;

Поиск наибольшей общей подстроки двух строк с использованием хеширования — различия между версиями

Версия 16:39, 12 сентября 2012

Содержание

Постановка задачи

Алгоритм

Псевдокод

Время работы

Литература

Навигация

Персональные инструменты

Пространства имён

Варианты

Просмотры

Ещё

Поиск

Навигация

Инструменты