Алгоритм Крочемора

Определение:

Тандемным повтором (англ. tandem repeat) в строке называются два вхождения какой-либо подстроки подряд. Иными словами, тандемный повтор описывается парой индексов такими, что подстрока — это две одинаковые строки, записанные подряд

Алгоритм Крочемора (англ. crochemore algorithm) — алгоритм на строках, позволяющий найти все тандемные повторы в строке [math]s[1..n][/math] за [math]O(n \log n)[/math]

Алгоритм

Разобьем описание алгоритма на две части: сначала покажем упрощенный алгоритм, работающий за [math]O(n^2)[/math], а затем попытаемся его оптимизировать до [math]O(n \log n)[/math]

Упрощенный алгоритм

Рассмотрим следующую строку Фиббоначи:

	1	2	3	4	5	6	7	8	9	10	11	12	13	14
[math]f_6 = [/math]	a	b	a	a	b	a	b	a	a	b	a	a	b	$

Будем вычислять все повторяющиеся подстроки длины [math]l[/math] для всех [math]l[/math], таких что . Зная эти данные, мы автоматически находим все тандемные повторы.

Предположим, что в строке [math]f_6[/math] вычислены последовательности позиций, в которых встречаются одинаковые символы:

[math]l = 1[/math]	<1, 3, 4, 6, 8, 9, 11, 12>	<2, 5, 7, 10, 13>	<14>
[math]l = 1[/math]	a	b	$

Если нам заранее известен алфавит, и он индексирован, то мы можем выполнить данное вычисление за [math]O(n)[/math].

Далее для [math]l = 2[/math] мы хотим найти все повторяющиеся подстроки длины [math]2[/math]. Поскольку повторяющиеся подстроки длины [math]l \geqslant 2[/math] будут иметь общий префикс длиной [math]l - 1[/math], то вычисления уровня [math]l[/math] должны привести к последовательностям, которые будут подпоследовательностями последовательностей, вычисленных на уровне [math]l - 1[/math]. Другими словами, разбиение на уровне [math]l \geqslant 2[/math] — декомпозиция разбиения на уровне [math]l - 1[/math]:

Последовательная декомпозиция строки [math]f_6 = abaababaabaab\$[/math]
[math]l = 2[/math]	<1, 4, 6, 9, 12>	<3, 8, 11>	<2, 5, 7, 10>	<13>
[math]l = 2[/math]	ab	aa	ba	b$
[math]l = 3[/math]	<1, 4, 6, 9>	<12>	<3, 8, 11>	<2, 7, 10>	<5>
[math]l = 3[/math]	aba	aa$	aab	baa	bab
[math]l = 4[/math]	<1, 6, 9>	<4>	<3, 8>	<11>	<2, 7, 10>
[math]l = 4[/math]	abaa	abab	aaba	aab$	baab
[math]l = 5[/math]	<1, 6, 9>	<3>	<8>	<2, 7>	<10>
[math]l = 5[/math]	abaab	aabab	aabaa	baaba	baab$
[math]l = 6[/math]	<1, 6>	<9>	<2>	<7>
[math]l = 6[/math]	abaaba	abaab$	baabab	baabaa
[math]l = 7[/math]	<1>	<6>
[math]l = 7[/math]	abaabab	abaabaa

Если реализовывать процесс декомпозиции "наивно", то поучаем сложность [math]O(n^2)[/math]

Заметим также, что приведенная выше декомпозиция дает сразу же понять, где существуют тандемные повторы.

Оптимизация

Декомпозицию каждой последовательности можно получить косвенным путем, а не путем прямых вычислений. Идея такого подхода состоит в следующем: на каждом уровне [math]l[/math] выполняется непосредственная декомпозиция каждой последовательности [math]c^{l}_j[/math]. Более точно, если , то необходимо проверить совпадение букв , и, если какие-либо пары букв [math]s[p_i + l][/math] и [math]s[p_j + l][/math] равны, то [math]p_i[/math] и [math]p_j[/math] помещаются в одну и ту же последовательность на уровне [math]l + 1[/math].

Заметим, что декомпозицию можно выполнить, основываясь не на разбиваемой последовательности, а на последовательностях, относительно которых будут разбиваться другие последовательности.

Для каждой позиции [math]p_i \gt 1[/math] известно, что подстрока (длиной [math]l + 1[/math]) относится к некоторой последовательности [math]c^{l + 1}_{j'}[/math] на уровне [math]l + 1[/math]. Поскольку последовательность [math]c^{l}_{j}[/math] соответствует уникальной подстроке строки [math]s[/math], то каждая такая последовательность [math]c^{l + 1}_{j'}[/math] должна формироваться из тех же позиций последовательности [math]c^{l}_{j}[/math], которые определяют класс эквивалентности .

Таким образом, декомпозицию на уровне [math]l + 1[/math] можно выполнить косвенным путем, рассматривая каждую последовательность уровня [math]l[/math] с позиции, находящейся на [math]1[/math] левее от начальной позиции этой последовательности.

Лемма:

В каждом наборе последовательностей, порожденных одной последовательностью уровня , всегда можно исключить использование одной из них для декомпозиции последовательностей на уровне

При использовании хеш-таблицы, где ключом является подстрока, а значением — список позиций, где эта строка входит в [math]s[/math], декомпозицию на уровне [math]l[/math] найдем за время, в среднем пропорциональное количеству позиций на уровне [math]l - 1[/math].

Определение:

В декомпозиции последовательности на последовательности назовем одну последовательность с наибольшим количеством элементов большой, а остальные последовательности — малыми. Для все последовательности будем считать малыми.

Лемма:

Предположим, что декомпозиция последовательностей, соответствующих произвольной строке , выполняется для уровней , где — наименьший уровень, на котором каждая последовательность содержит единственную позицию. Тогда каждая позиция строки входит в малые последовательности раз

Доказательство:

Заметим, что если последовательность разбивается на подпоследовательности , то каждая малая последовательность удовлетворяет условию . Другими словами, при каждая малая последовательность не превышает половины размера своей исходной последовательности. Поскольку для начальная малая последовательность может содержать не более позиций, то из этого следует, что ни одна из позиций не может входить в больше, чем малых последовательностей.

Поскольку строка [math]s[/math] содержит [math]n[/math] позиций, то из предыдущей леммы следует, что всего в малых последовательностях на всех уровнях содержится [math]O(n \log n)[/math] позиций. Таким образом, если время обработки последовательностей на каждом уровне [math]l[/math] пропорционально количеству элементов в малых последовательностях этого уровня, то полный процесс декомпозиции будет выполнен за [math]O(n \log n)[/math], чего мы и хотели получить.

Псевдокод

  crochemore()
     [math]l[/math] [math]\gets[/math] 1
     Вычислим все последовательности на уровне 1 и пометим их как малые
     while [math]\exists[/math] малая последовательность на уровне [math]l[/math]:
        out [math]\gets[/math] кратные строки с периодом l
        Вычислим декомпозицию последовательностей уровня [math]l[/math], используя только малые последовательности
        l++
        Найдем малые последовательности на уровне [math]l[/math]

См. также

Алгоритм Ландау-Шмидта

Источники информации

Билл Смит Методы и алгоритмы вычислений на строках. Пер. с англ.— М.:Издательский дом "Вильямс", 2006. ISBN 5-8459-1081-1
MAXimal :: algo :: Поиск всех тандемных повторов в строке. Алгоритм Мейна-Лоренца

Алгоритм Крочемора