Изменения

Задача о редакционном расстоянии, алгоритм Вагнера-Фишера

57 байт добавлено, 02:33, 14 января 2013

Нет описания правки

== Рекурсивный алгоритм ==

Для того, чтобы обеспечить время <~~math~~tex>\Theta(M \cdot N)</~~math~~tex> при памяти <~~math~~tex>\Theta(\min(M,N))</~~math~~tex>, определим матрицу <tex> E </tex> минимальных расстояний между ''суффиксами'' строк, то есть <tex> E(i, j) — </tex> {{---}} расстояние между последними <tex> i </tex> символами <~~math~~tex>S_1</~~math~~tex> и последними <tex> j </tex> символами <~~math~~tex>S_2</~~math~~tex>. Очевидно, матрицу <tex> E </tex> можно вычислить аналогично матрице <tex> D</tex>, и так же быстро.

Теперь опишем алгоритм, считая, что <~~math~~tex>S_2</~~math~~tex> — кратчайшая из двух строк.

* Если длина одной из строк (или обеих) не больше <tex> 1</tex>, задача тривиальна. Если нет, выполним следующие шаги.* Разделим строку <~~math~~tex>S_1</~~math~~tex> на две подстроки длиной <~~math~~tex>M/2</~~math~~tex>. (Если <tex>M </tex> нечётно, то длины подстрок будут <~~math~~tex>(M-1)/2</~~math~~tex> и <~~math~~tex>(M+1)/2</~~math~~tex>.) Обозначим подстроки <~~math~~tex>S_1^-</~~math~~tex> и <~~math~~tex>S_1^+</~~math~~tex>.* Для вычислим последнюю строку матрицы <tex> D </tex> для строк <~~math~~tex>S_1^-</~~math~~tex> и <~~math~~tex>S_2</~~math~~tex>, последнюю строку матрицы <tex> E </tex> для строк <~~math~~tex>S_1^+</~~math~~tex> и <~~math~~tex>S_2</~~math~~tex>.* Найдём <tex> i </tex> такое, что <~~math~~tex>D(|S_1^-|, i) + E(|S_1^+|, N-i)</~~math~~tex> минимально. Здесь <tex> D </tex> и ~~Е —~~ <tex> E </tex> {{---}} матрицы из предыдущего шага, но мы используем только их последние строки. Таким образом, мы нашли разбиение <~~math~~tex>S_2</~~math~~tex> на две подстроки, минимизирующее сумму расстояния левой половины <~~math~~tex>S_1</~~math~~tex> до левой части <~~math~~tex>S_2</~~math~~tex> и расстояния правой половины <~~math~~tex>S_1</~~math~~tex> до правой части <~~math~~tex>S_2</~~math~~tex>. Следовательно, левая подстрока <~~math~~tex>S_2</~~math~~tex> соответствует левой половине <~~math~~tex>S_1</~~math~~tex>, а ~~правая —~~ правая {{---}} правой.* Рекурсивно ищем редакционное предписание, превращающее <~~math~~tex>S_1^-</~~math~~tex> в левую часть <~~math~~tex>S_2</~~math~~tex> (то есть в подстроку <~~math~~tex>S_2[1...i]</~~math~~tex>)* Рекурсивно ищем редакционное предписание, превращающее <~~math~~tex>S_1^+</~~math~~tex> в правую часть <~~math~~tex>S_2</~~math~~tex> (то есть в подстроку <~~math~~tex>S_2[i+1...N]</~~math~~tex>).

* Объединяем оба редакционных предписания.

<code>

~~'''String'''~~ '''levensteinInstruction'''('''String''' s1, '''String''' s2){ '''if''' ( s1.length <= tex> \le </tex> 1 || s2.length <= tex> \le </tex> 1 )

Решаем тривиально, возвращаем редакционное предписание

//Иначе:

~~'''~~String~~'''~~ s1l, s1r, s2l, s2r

'''if''' ( s2.length < s1.length )

s1l = s1.substring(0, s1.length / 2) //<~~math~~tex>S_1^-</~~math~~tex> s1r = s1.substring(s1.length / 2, s1.length) //<~~math~~tex>S_1^+</~~math~~tex> ~~'''int''' []~~ // d, e - массивы d = '''calcD'''(s1l, s2) //Вычисляем последнюю строку матрицы <tex>D </tex> для <~~math~~tex>S_1^-</~~math~~tex> и <~~math~~tex>S_2</~~math~~tex> ~~'''int''' []~~ e = '''calcE'''(s1r, s2) //Вычисляем последнюю строку матрицы <tex>E </tex> для <~~math~~tex>S_1^+</~~math~~tex> и <~~math~~tex>S_2</~~math~~tex> ~~'''int'''~~ k = 0 '''for~~''' ('''int~~''' i = 1~~; i <=~~ ..s2.length~~; i++)~~

'''if''' (d[i] + e[s2.length - i] < d[k] + e[s2.length - k])

k = i

'''else'''

//s1 - меньшая строка

s2l = s2.substring(0, s2.length / 2) //<~~math~~tex>S_2^-</~~math~~tex> s2r = s2.substring(s2.length / 2, s2.length) //<~~math~~tex>S_2^+</~~math~~tex> ~~'''int''' []~~ d = '''calcD'''(s2l, s1) //Вычисляем последнюю строку матрицы <tex>D </tex> для <~~math~~tex>S_2^-</~~math~~tex> и <~~math~~tex>S_1</~~math~~tex> ~~'''int''' []~~ e = '''calcE'''(s2r, s1) //Вычисляем последнюю строку матрицы <tex>E </tex> для <~~math~~tex>S_2^+</~~math~~tex> и <~~math~~tex>S_1</~~math~~tex> ~~'''int'''~~ k = 0 '''for~~''' ('''int~~''' i = 1~~; i <=~~ ..s1.length~~; i++)~~

'''if''' (d[i] + e[s1.length - i] < d[k] + e[s1.length - k])

k = i

s1r = s1.substring(k, s1.length)

'''return''' '''levensteinInstruction'''(s1l, s2l) + '''levensteinInstruction'''(s1r, s2r)

}

</code>

Время выполнения удовлетворяет (с точностью до умножения на константу) условию

: <~~math~~tex>T(M,N)=MN+T(M/2,N')+T(M/2,N-N'),\ 0\le N'\le N</~~math~~tex>,

Докажем:

: <~~math~~tex>T(M,N) \le 2MN</~~math~~tex>

База индукции очевидна

: <~~math~~tex>T(1,N) = N \le 2N</~~math~~tex>Пусть для всех <~~math~~tex>M' < M</~~math~~tex> выполнено <~~math~~tex>T(M',N') \le 2M'N'</~~math~~tex>. Тогда учитывая <~~math~~tex>T(M/2,N') \le 2(M/2)N'</~~math~~tex>, <~~math~~tex>T(M/2,N-N') \le 2(M/2)(N-N')</~~math~~tex>, получим:: <~~math~~tex>T(M,N)=MN+T(M/2,N')+T(M/2,N-N') \le</~~math~~tex> <~~math~~tex> MN+2(M/2)N'+2(M/2)(N-N')=2MN</~~math~~tex>

следовательно

: <~~math~~tex>T(M,N) = \Theta(M \cdot N)</~~math~~tex>

Для вычисления последних строк матриц <tex> D, ~E </tex>можно использовать два глобальных двумерных массива размера <~~math~~tex>2 \times (min(M, N)+1)</~~math~~tex>.

Т.к. мы вычисляем функцию рекурсивно, требуемый размер стека тоже следует учесть. На стек вызовов потребуется <~~math~~tex>\Theta(log(max(M,N))</~~math~~tex> памяти, потому общая оценка использования памяти будет <~~math~~tex> \Theta(min(M,N)) </~~math~~tex>

== Редакционное предписание ==

Shersh

Администраторы

3622

правки

Изменения

Задача о редакционном расстоянии, алгоритм Вагнера-Фишера

Навигация

Персональные инструменты

Пространства имён

Варианты

Просмотры

Ещё

Поиск

Навигация

Инструменты