Алгоритм Ландау-Вишкина (k несовпадений) — различия между версиями

Версия 14:26, 15 июня 2014

Постановка задачи

Дано число [math]k \gt 0[/math] текст [math]y[1...n][/math] и образец [math]x[1...m][/math], [math]m \lt n[/math]. Требуется найти все подстроки текста длины [math]m[/math], с не более чем [math]k[/math] несовпадающими символами.

Алгоритм

При анализе текста используется двумерный массив [math]tm[0...n-m][1...k+1][/math], содержащий информацию о несовпадениях текста с образцом. По завершении анализа в его [math]i[/math]-й строке содержатся позиции в [math]x[/math] первых [math]k+1[/math] несовпадений между строками [math]x[1...m][/math] и [math]y[i+1...i+m][/math]. Таким образом, если [math]tm[i][v] = s[/math], то [math]y[i+s] \neq x[s][/math], и это [math]v[/math]-е несовпадение между [math]x[1...m][/math] и [math]y[i+1...i+m][/math], считая слева направо. Если число [math]d[/math] несовпадений [math]x[1...m][/math] с подстрокой [math]y[i+1...i+m][/math] меньше [math]k+1[/math], то, начиная с [math]d+1[/math], элементы [math]i[/math]-й строки равны значению по умолчанию [math]m+1[/math].

В таблицу tm по номеру несовпадения записывается соответстующий индекс образца.

Заметим, если [math]tm[i][k+1] = m+1[/math], то подстрока [math]y[i+1...i+m][/math] отличается от образца [math]x[/math] не более, чем на [math]k[/math] символов, и, таким образом, является решением задачи.

Затем образец сканируется параллельно с текстом слева на права по одному символу за раз. На итерации [math]i[/math] с образцом сравнивается подстрока [math]y[i+1...i+m][/math]. [math]j[/math] - обозначим самую правую позицию в тексте, достигнутую за предыдущие итерации, то есть [math]j[/math] является максимальным из чисел [math]r+tm[r, k + 1][/math], где [math]0 \lt = r \lt i[/math]//todo. Если [math]i \lt j[/math], в [math]b[/math] присваивается результат работы [math]merge[/math], которая находит количество несовпадений между [math]x[1... j-i][/math] и [math]y[i+1...j][/math]. Если [math]b[/math] не превышает [math]k[/math], вызывается процедура [math]extend[/math], которая сравнивает подстроки [math]y[j + 1...i + m][/math] и [math]x[j - i + 1...m][/math]. Переменная [math]r[/math] будет рассмотренна ниже.

tm[0...n-m][1...k+1] = m+1 // инициализация
r = 0
j = 0
for i = 0 to n - m
  b = 0
  if i < j
    b = merge(i, r, j) 
  if b < k + 1
    r = i
    extend(i, j, b)

и в случае несовпадения [math]b[/math] увеличивается и таблица текстовых несовпадений обновляется. Если найдено [math]k+1[/math] несовпадений, обработка заканчивается, иначе найдено вхождение образца в подстроке [math]y[i+1...i+m][/math].

Пример

Пусть [math]x = "tram"[/math], [math]y = "thetrippedtrap"[/math], [math]k = 2[/math].

tm	1	2	3	x[1..m]	y[i+1..i+m]
0	2	3	4	tram	thet
1	1	2	3	tram	hetr
2	1	2	3	tram	etri
3	3	4	5	tram	trip
4	1	2	3	tram	ripp
5	1	2	3	tram	ippe
6	1	2	3	tram	pped
7	1	2	3	tram	pedt
8	1	2	3	tram	edtr
9	1	2	3	tram	dtra
10	4	5	5	tram	trap

//todo pm

@@ Строка 2: / Строка 2: @@
 Дано число <tex>k > 0</tex> текст <tex>y[1...n]</tex> и образец <tex>x[1...m]</tex>, <tex>m < n</tex>. Требуется найти все подстроки текста длины <tex>m</tex>, с не более чем <tex>k</tex> несовпадающими символами.
-==Основная идея==
+==Алгоритм==
 При анализе текста используется двумерный массив <tex>tm[0...n-m][1...k+1]</tex>, содержащий информацию о несовпадениях текста с образцом. По завершении анализа в его <tex>i</tex>-й строке содержатся позиции в <tex>x</tex> первых <tex>k+1</tex> несовпадений между строками <tex>x[1...m]</tex> и <tex>y[i+1...i+m]</tex>. Таким образом, если <tex>tm[i][v] = s</tex>, то <tex>y[i+s] \neq x[s]</tex>, и это <tex>v</tex>-е несовпадение между <tex>x[1...m]</tex> и <tex>y[i+1...i+m]</tex>, считая слева направо. Если число <tex>d</tex> несовпадений <tex>x[1...m]</tex> с подстрокой <tex>y[i+1...i+m]</tex> меньше <tex>k+1</tex>, то, начиная с <tex>d+1</tex>, элементы <tex>i</tex>-й строки равны значению по умолчанию <tex>m+1</tex>.
-[[Файл:algLandauVishkin1.png|thumb|380px|right|...]]
+[[Файл:algLandauVishkin1.png|thumb|380px|right| В таблицу tm по номеру несовпадения записывается соответстующий индекс образца.]]
 Заметим, если <tex>tm[i][k+1] = m+1</tex>, то подстрока <tex>y[i+1...i+m]</tex> отличается от образца <tex>x</tex> не более, чем на <tex>k</tex> символов, и, таким образом, является решением задачи.
@@ Строка 34: / Строка 34: @@
 ==Пример==
 Пусть <tex>x = "tram"</tex>, <tex>y = "thetrippedtrap"</tex>, <tex>k = 2</tex>.
-//todo tm
+{| class="wikitable" cellpadding="4" border="1" style="border-collapse: collapse; text-align: center;"
+|-
+| tm || '''1''' || '''2''' || '''3''' || x[1..m] || y[i+1..i+m]
+|-
+| '''0''' ||  2  ||  3  ||  4  || '''t'''ram || '''t'''het
+|-
+| '''1''' ||  1  ||  2  ||  3  ||  tram || hetr
+|-
+| '''2''' ||  1  ||  2  ||  3   || tram || etri
+|-
+| '''3''' ||  3  ||  4  ||  style="background:#FFCC00"| 5  || '''tr'''am || '''tr'''ip
+|-
+| '''4''' ||  1  ||  2  ||  3 || tram || ripp
+|-
+| '''5''' ||  1  ||  2  ||  3 || tram || ippe
+|-
+| '''6''' ||  1  ||  2  ||  3  || tram || pped
+|-
+| '''7''' ||  1  ||  2  ||  3  || tram || pedt
+|-
+| '''8''' ||  1  ||  2  ||  3  || tram || edtr
+|-
+| '''9''' ||  1  ||  2  ||  3  || tram || dtra
+|-
+| '''10''' ||  4  || style="background:#FFCC00"| 5  || style="background:#FFCC00"| 5 || '''tra'''m || '''tra'''p
+|}
 //todo pm

Алгоритм Ландау-Вишкина (k несовпадений) — различия между версиями

Версия 14:26, 15 июня 2014

Постановка задачи

Алгоритм

Пример

Навигация

Персональные инструменты

Пространства имён

Варианты

Просмотры

Ещё

Поиск

Навигация

Инструменты