Версия 06:15, 28 мая 2014

Определение:

Тандемным повтором (tandem repeat) в строке называются два вхождения какой-либо подстроки подряд. Иными словами, тандемный повтор описывается парой индексов такими, что подстрока — это две одинаковые строки, записанные подряд.

Алгоритм Крочемора (Crochemore algorithm) - алгоритм на строках, позволяющий найти все тандемные повторы в строке [math]s[1..n][/math] за [math]O(n \cdot log (n))[/math]

Содержание

1 Идея
- 1.1 Упрощенный алгоритм
- 1.2 Оптимизация
2 Псевдокод
3 Реализация
4 Доказательство
5 Сложность
6 Источники

Идея

Разобьем описание алгоритма на две части: сначала покажем упрощенный алгоритм, работающий за [math]O(n^2)[/math]\, а затем попытаемся его оптимизировать до [math]O(n \cdot log(n))[/math]

Упрощенный алгоритм

Рассмотрим следующую строку Фиббоначи:

	1	2	3	4	5	6	7	8	9	10	11	12	13
[math]f_6 = [/math]	a	b	a	a	b	a	b	a	a	b	a	a	b

Будем вычислять все повторяющиеся подстроки длины [math]l[/math], где [math]l = 1 \ldots n - 1[/math]. Зная эти данные, мы автоматически находим все тандемные повторы.

Предположим, что в строке [math]f_6[/math] вычислены последовательности позиций, в которых встречаются одинаковые символы:

[math]l = 1[/math]	<1, 3, 4, 6, 8, 9, 11, 12>	<2, 5, 7, 10, 13>
[math]l = 1[/math]	a	b

Если нам заранее известен алфавит и он индексирован, то мы можем выполнить данное вычисление за [math]O(n)[/math].

Далее для [math]l = 2[/math] мы хотим найти все повторяющиеся подстроки длины [math]2[/math]. Поскольку повторяющиеся подстроки длины [math]l \geq 2[/math] будут иметь общий префикс длиной [math]l - 1[/math], то вычисления уровня [math]l[/math] должны привести к последовательностям, которые будут подпоследовательностями последовательностей, вычисленных на уровне [math]l - 1[/math]. Другими словами, разбиение на уровне [math]l \geq 2[/math] — декомпозиция разбиения на уровне [math]l - 1[/math]:

Последовательная декомпозиция строки [math]f_6 = abaababaabaab[/math]
[math]l = 2[/math]	<1, 4, 6, 9, 12>	<3, 8, 11>	<2, 5, 7, 10>	<13>
[math]l = 2[/math]	ab	aa	ba	b$
[math]l = 3[/math]	<1, 4, 6, 9>	<12>	<3, 8, 11>	<2, 7, 10>	<5>
[math]l = 3[/math]	aba	aa$	aab	baa	bab
[math]l = 4[/math]	<1, 6, 9>	<4>	<3, 8>	<11>	<2, 7, 10>
[math]l = 4[/math]	abaa	abab	aaba	aab$	baab
[math]l = 5[/math]	<1, 6, 9>	<3>	<8>	<2, 7>	<10>
[math]l = 5[/math]	abaab	aabab	aabaa	baaba	baab$
[math]l = 6[/math]	<1, 6>	<9>	<2>	<7>
[math]l = 6[/math]	abaaba	abaab$	baabab	baabaa
[math]l = 7[/math]	<1>	<6>
[math]l = 7[/math]	abaabab	abaabaa

Если реализовывать процесс декомпозиции "наивно", то поучаем сложность [math]O(n^2)[/math]

Оптимизация

Декомпозицию каждой последовательности можно получить косвенным путем, а не путем прямых вычислений. Идея такого подхода состоит в следующем: на каждом уровне [math]l[/math] выполняется непосредственная декомпозиция каждой последовательности [math]c^{(l)}_j[/math]. Более точно, если , то необходимо проверить совпадение букв , и, если какие-либо пары букв [math]s[p_i + l][/math] и [math]s[p_j + l][/math] равны, то [math]p_i[/math] и [math]p_j[/math] помещаются в одну и ту же последовательность на уровне [math]l + 1[/math].

Заметим, что декомпозицию можно выполнить, основываясь не на разбиваемой последовательности, а на последовательностях, относительно которых будут разбиваться другие последовательности.

Для каждой позиции [math]p_i \gt 1[/math] известно, что подстрока (длиной [math]l + 1[/math]) относится к некоторой последовательности [math]c^{(l + 1)}_{j'}[/math] на уровне [math]l + 1[/math]. Поскольку последовательность [math]c^{(l)}_{j}[/math] соответствует уникальной подстроке строки [math]s[/math], то каждая такая последовательность [math]c^{(l + 1)}_{j'}[/math] должна формироваться из тех же позиций последовательности [math]c^{(l)}_{j}[/math], которые определяют класс эквивалентности .

Таким образом, декомпозицию на уровне [math]l + 1[/math] можно выполнить косвенным путем, рассматривая каждую последовательность уровня [math]l[/math] с позиции, находящейся на [math]1[/math] левее от начальной позиции этой последовательности.

@@ Строка 72: / Строка 72: @@
-В приведенном выше примере для строки <tex>f_6</tex> последовательность <tex><1, 4, 6, 9></tex> на уровне <tex>3</tex> разбивается на уровне <tex>4</tex> на последовательности <tex><1, 6, 9></tex> и <tex><4></tex>, поскольку
+Заметим, что декомпозицию можно выполнить, основываясь не на разбиваемой последовательности, а на последовательностях, относительно которых будут разбиваться другие последовательности.
-<tex>f_6[1 + 3] = f_6[6 + 3] = f_6[9 + 3] \neq f_6[4 + 3]</tex>.
-Но декомпозицию можно выполнить, основываясь не на разбиваемой последовательности, а на последовательностях, относительно которых будут разбиваться другие последовательности. Снова рассмотрим уровень <tex>l = </tex> и последовательность
+Для каждой позиции <tex>p_i > 1</tex> известно, что подстрока <tex>s[p_i - 1 \ldots p_i + l - 1]</tex> (длиной <tex>l + 1</tex>) относится к некоторой последовательности <tex>c^{(l + 1)}_{j'}</tex> на уровне <tex>l + 1</tex>. Поскольку последовательность <tex>c^{(l)}_{j}</tex> соответствует уникальной подстроке строки <tex>s</tex>, то каждая такая последовательность <tex>c^{(l + 1)}_{j'}</tex> должна формироваться из тех же позиций <tex>p_{i_1}, p_{i_2}, \ldots , p_{i_k}</tex> последовательности <tex>c^{(l)}_{j}</tex>, которые определяют класс эквивалентности
-<tex>c^{(3)}_1 = <p_1, p_2, p_3, p_4> = <1, 4, 6, 9></tex>,
+<tex>s[p_{i_1} - 1] = s[p_{i_2} - 1] = \ldots = s[p_{i_k} - 1]</tex>.
-относящуюся к подстроке <tex>aba</tex>.
+Таким образом, декомпозицию на уровне <tex>l + 1</tex> можно выполнить косвенным путем, рассматривая каждую последовательность уровня <tex>l</tex> с позиции, находящейся на <tex>1</tex> левее от начальной позиции этой последовательности.
 = Псевдокод =

Алгоритм Крочемора — различия между версиями

Версия 06:15, 28 мая 2014

Содержание

Идея

Упрощенный алгоритм

Оптимизация

Псевдокод

Реализация

Доказательство

Сложность

Источники

Навигация

Персональные инструменты

Пространства имён

Варианты

Просмотры

Ещё

Поиск

Навигация

Инструменты