Поиск наибольшей общей подстроки двух строк с использованием хеширования — различия между версиями

Материал из Викиконспекты
Перейти к: навигация, поиск
(Псевдокод)
Строка 1: Строка 1:
 
==Постановка задачи==
 
==Постановка задачи==
Имеются строки <tex>S</tex> и <tex>T</tex> такие, что элементы этих строк  <tex>-</tex> символы из конечного алфавита <tex> \sum </tex>. Говорят, что строка <tex>Z</tex>[1 .. m] является подстрокой строки <tex>S</tex>[1 .. n], если существует такой индекс <tex>k</tex> &isin; [0 .. n - m], что для любого <tex>i</tex> &isin; [1 .. m] справедливо <tex>S[k + i] = Z[i]</tex>. Требуется найти такую строку <tex>Z</tex>, максимальной длины, что <tex>Z</tex> является и подстрокой <tex>S</tex>, и подстрокой <tex>T</tex>.
+
Имеются строки <tex>S</tex> и <tex>T</tex> такие, что элементы этих строк  <tex>-</tex> символы из конечного алфавита <tex> \sum </tex>. Говорят, что строка <tex>Z[1 .. m]</tex> является подстрокой строки <tex>S[1 .. n]</tex>, если существует такой индекс <tex>k \in [0 .. n - m]</tex>, что для любого <tex>i \in [1 .. m]</tex> справедливо <tex>S[k + i] = Z[i]</tex>. Требуется найти такую строку <tex>Z</tex> максимальной длины, что <tex>Z</tex> является и подстрокой <tex>S</tex>, и подстрокой <tex>T</tex>.
  
 
==Алгоритм==
 
==Алгоритм==
Данный алгоритм основывается на методе половинного деления. Пусть длина наибольшей общей подстроки будет <tex>x</tex>. Заметим, что у строк <tex>S</tex> и <tex>T</tex> обязательно найдется общая подстрока длины <tex>y</tex> &isin; [0 .. <tex>x</tex>], так как в качестве такой строки можно взять префикс наибольшей общей подстроки. Рассмотрим функцию <tex>f</tex> : [0 .. min(len(<tex>S</tex>), len(<tex>T</tex>))] &rarr; {0, 1}, которая для <tex>i</tex> из области определения равна 1, если у строк <tex>S</tex> и <tex>T</tex> есть общая подстрока длины <tex>i</tex>, иначе она равна 0. Согласно замечанию, функция <tex>f</tex> должна по мере возрастания <tex>i</tex> быть равной 1 до некоторого момента, а затем обращаться в 0. Собственно, максимальное значение, при котором функция принимает значение 1, является длиной наибольшей общей подстроки. Таким образом требуется с помощью бинарного поиска найти это значение. В ходе работы придется проверять наличие общей подстроки заданной длины. При этом предполагается использовать хеширование, чтобы улучшить асимптотику алгоритма. Делается это следующим образом: 1) у строки <tex>S</tex> хешируем подстроки заданной длины и полученные хеши записываем в Set. 2) у строки <tex>T</tex> хешируем подстроки заданной длины и в случае совпадения хеша с элементом Set выполняем посимвольную проверку на совпадение подстрок. Предполагается, что хеширование будет проводится так же, как и в [[Поиск подстроки в строке с использованием хеширования. Алгоритм Рабина-Карпа|алгоритме Рабина-Карпа]].
+
Данный алгоритм основывается на методе половинного деления. Пусть длина наибольшей общей подстроки будет <tex>x</tex>. Заметим, что у строк <tex>S</tex> и <tex>T</tex> обязательно найдется общая подстрока длины <tex>y \in [0 .. x]</tex>, так как в качестве такой строки можно взять префикс наибольшей общей подстроки. Рассмотрим функцию <tex>f : [0 .. \min(len(S), len(T))] \rightarrow \{0, 1\}</tex>, которая для <tex>i</tex> из области определения равна 1, если у строк <tex>S</tex> и <tex>T</tex> есть общая подстрока длины <tex>i</tex>, иначе она равна 0. Согласно замечанию, функция <tex>f</tex> должна по мере возрастания <tex>i</tex> быть равной 1 до некоторого момента, а затем обращаться в 0. Собственно, максимальное значение, при котором функция принимает значение 1, является длиной наибольшей общей подстроки. Таким образом требуется с помощью бинарного поиска найти это значение. В ходе работы придется проверять наличие общей подстроки заданной длины. При этом предполагается использовать хеширование, чтобы улучшить асимптотику алгоритма. Делается это следующим образом:<br>
 +
1) у строки <tex>S</tex> хешируем подстроки заданной длины и полученные хеши записываем в Set.<br>
 +
2) у строки <tex>T</tex> хешируем подстроки заданной длины и в случае совпадения хеша с элементом Set выполняем посимвольную проверку на совпадение подстрок.<br>
 +
Предполагается, что хеширование будет проводится так же, как и в [[Поиск подстроки в строке с использованием хеширования. Алгоритм Рабина-Карпа|алгоритме Рабина-Карпа]].
  
 
== Псевдокод ==
 
== Псевдокод ==
Строка 20: Строка 23:
  
 
==Время работы==
 
==Время работы==
Проведем оценку асимптотики времени работы предложенного алгоритма. Посмотрим сколько нам потребуется действий на каждом шаге бинарного поиска. Во-первых, хеширование подстрок строки <tex>S</tex> и запись их в Set требует O(len(<tex>S</tex>)) шагов. Во-вторых, хеширование подстрок строки <tex>T</tex> и проверка их наличия в Set требует O(len(<tex>T</tex>)). В приведенных рассуждениях предполагается, что операции записи в Set и проверка наличия элемента в Set работают за амортизированную O(1). Поскольку хешировали с помощью [[Поиск подстроки в строке с использованием хеширования. Алгоритм Рабина-Карпа|этого]] метода, то это занимает линейное время. Значит,на каждый шаг бинарного поиска требуется O(max(len(<tex>S</tex>), len(<tex>T</tex>))) действий. На самом деле требуется несколько больше времени, поскольку совпадение хешей не дает гарантии совпадения подстрок, однако чтобы это было справедливо с большой вероятностью, достаточно проверить совпадение лишь нескольких произвольных символов, вместо полной проверки. Тогда на это потребуется некоторое константное число операций, что маскируется с помощью O. Заметим, что всего для завершения бинарного поиска потребуется O(log(min(len(<tex>S</tex>), len(<tex>T</tex>)))) шагов. Следовательно, суммарное время работы алгоритма будет O(log(min(len(<tex>S</tex>), len(<tex>T</tex>))) * max(len(<tex>S</tex>), len(<tex>T</tex>))) действий.
+
Проведем оценку асимптотики времени работы предложенного алгоритма. Посмотрим сколько нам потребуется действий на каждом шаге бинарного поиска. Во-первых, хеширование подстрок строки <tex>S</tex> и запись их в Set требует <tex>O(len(S))</tex> шагов. Во-вторых, хеширование подстрок строки <tex>T</tex> и проверка их наличия в Set требует <tex>O(len(T))</tex>. В приведенных рассуждениях предполагается, что операции записи в Set и проверка наличия элемента в Set работают за амортизированную <tex>O(1)</tex>. Поскольку хешировали с помощью [[Поиск подстроки в строке с использованием хеширования. Алгоритм Рабина-Карпа|этого]] метода, то это занимает линейное время. Значит,на каждый шаг бинарного поиска требуется <tex>O(max(len(S), len(T)))</tex> действий. На самом деле требуется несколько больше времени, поскольку совпадение хешей не дает гарантии совпадения подстрок, однако чтобы это было справедливо с большой вероятностью, достаточно проверить совпадение лишь нескольких произвольных символов, вместо полной проверки. Тогда на это потребуется некоторое константное число операций, что маскируется с помощью <tex>O</tex>. Заметим, что всего для завершения бинарного поиска потребуется <tex>O(\log(\min(len(S), len(T))))</tex> шагов. Следовательно, суммарное время работы алгоритма будет <tex>O(\log(\min(len(S), len(T))) * \max(len(S), len(T)))</tex> действий.
 
== Литература ==
 
== Литература ==
 
Кормен Т., Лейзерсон Ч., Ривест Р. Алгоритмы: построение и анализ. — 2-е изд. — М.: Издательский дом «Вильямс», 2007. — С. 1296.
 
Кормен Т., Лейзерсон Ч., Ривест Р. Алгоритмы: построение и анализ. — 2-е изд. — М.: Издательский дом «Вильямс», 2007. — С. 1296.

Версия 06:53, 28 сентября 2011

Постановка задачи

Имеются строки [math]S[/math] и [math]T[/math] такие, что элементы этих строк [math]-[/math] символы из конечного алфавита [math] \sum [/math]. Говорят, что строка [math]Z[1 .. m][/math] является подстрокой строки [math]S[1 .. n][/math], если существует такой индекс [math]k \in [0 .. n - m][/math], что для любого [math]i \in [1 .. m][/math] справедливо [math]S[k + i] = Z[i][/math]. Требуется найти такую строку [math]Z[/math] максимальной длины, что [math]Z[/math] является и подстрокой [math]S[/math], и подстрокой [math]T[/math].

Алгоритм

Данный алгоритм основывается на методе половинного деления. Пусть длина наибольшей общей подстроки будет [math]x[/math]. Заметим, что у строк [math]S[/math] и [math]T[/math] обязательно найдется общая подстрока длины [math]y \in [0 .. x][/math], так как в качестве такой строки можно взять префикс наибольшей общей подстроки. Рассмотрим функцию [math]f : [0 .. \min(len(S), len(T))] \rightarrow \{0, 1\}[/math], которая для [math]i[/math] из области определения равна 1, если у строк [math]S[/math] и [math]T[/math] есть общая подстрока длины [math]i[/math], иначе она равна 0. Согласно замечанию, функция [math]f[/math] должна по мере возрастания [math]i[/math] быть равной 1 до некоторого момента, а затем обращаться в 0. Собственно, максимальное значение, при котором функция принимает значение 1, является длиной наибольшей общей подстроки. Таким образом требуется с помощью бинарного поиска найти это значение. В ходе работы придется проверять наличие общей подстроки заданной длины. При этом предполагается использовать хеширование, чтобы улучшить асимптотику алгоритма. Делается это следующим образом:
1) у строки [math]S[/math] хешируем подстроки заданной длины и полученные хеши записываем в Set.
2) у строки [math]T[/math] хешируем подстроки заданной длины и в случае совпадения хеша с элементом Set выполняем посимвольную проверку на совпадение подстрок.
Предполагается, что хеширование будет проводится так же, как и в алгоритме Рабина-Карпа.

Псевдокод

int f(int) - функция описанная в алгоритме

int findGCS(S, T)
  n = min(len(S), len(T))
  left = 0
  right = n + 1
  while (right - left > 1):
     val = (left + right) / 2
     if (f(val) == 1)
      left = val
     else
       right = val
  return left

Время работы

Проведем оценку асимптотики времени работы предложенного алгоритма. Посмотрим сколько нам потребуется действий на каждом шаге бинарного поиска. Во-первых, хеширование подстрок строки [math]S[/math] и запись их в Set требует [math]O(len(S))[/math] шагов. Во-вторых, хеширование подстрок строки [math]T[/math] и проверка их наличия в Set требует [math]O(len(T))[/math]. В приведенных рассуждениях предполагается, что операции записи в Set и проверка наличия элемента в Set работают за амортизированную [math]O(1)[/math]. Поскольку хешировали с помощью этого метода, то это занимает линейное время. Значит,на каждый шаг бинарного поиска требуется [math]O(max(len(S), len(T)))[/math] действий. На самом деле требуется несколько больше времени, поскольку совпадение хешей не дает гарантии совпадения подстрок, однако чтобы это было справедливо с большой вероятностью, достаточно проверить совпадение лишь нескольких произвольных символов, вместо полной проверки. Тогда на это потребуется некоторое константное число операций, что маскируется с помощью [math]O[/math]. Заметим, что всего для завершения бинарного поиска потребуется [math]O(\log(\min(len(S), len(T))))[/math] шагов. Следовательно, суммарное время работы алгоритма будет [math]O(\log(\min(len(S), len(T))) * \max(len(S), len(T)))[/math] действий.

Литература

Кормен Т., Лейзерсон Ч., Ривест Р. Алгоритмы: построение и анализ. — 2-е изд. — М.: Издательский дом «Вильямс», 2007. — С. 1296.