Алгоритм поиска подстроки в строке с помощью суффиксного массива — различия между версиями
(→Наивный алгоритм поиска) |
(→Наивный алгоритм поиска) |
||
Строка 10: | Строка 10: | ||
Бинарный поиск работает за время равное <tex> O(\log|s|) </tex>, а сравнение суффикса с образцом не может превышать длины образца. | Бинарный поиск работает за время равное <tex> O(\log|s|) </tex>, а сравнение суффикса с образцом не может превышать длины образца. | ||
− | Таким образом время работы алгоритмы <tex> O(|p|\log|s|)</tex> | + | Таким образом время работы алгоритмы <tex> O(|p|\log|s|)</tex>, где <tex> s </tex> {{---}} текст, <tex> p </tex> {{---}} образец. |
=== Псевдокод === | === Псевдокод === |
Версия 15:26, 28 апреля 2012
Здесь мы рассмотрим некоторые способы нахождения всех вхождений образца в текст с помощью суффиксного массива.
Содержание
Наивный алгоритм поиска
Простейший способ узнать, встречается ли образец в тексте, используя суффиксный массив, это взять первый символ образца и бинарным поиском по суффиксному массиву найти диапазон с суффиксами, начинающимися на такую же букву. Так как все элементы в полученном диапазоне отсортированы, а первые символы одинаковые, то оставшиеся после отбрасывания первого символа суффиксы тоже отсортированы. А значит, можно повторять процедуру сужения диапазона поиска уже по второму, затем третьему и так далее символу образца до получения либо пустого диапазона, либо успешного нахождения всех символов образца.
Бинарный поиск работает за время равное , а сравнение суффикса с образцом не может превышать длины образца.
Таким образом время работы алгоритмы
, где — текст, — образец.Псевдокод
Поиск диапазона
/* p - образец n - длина образца left - левая граница диапазона // изначально равна единице right - правая граница диапазона // изначально равна длине строки lh - вспомогательная переменная для определения левой границы диапазона rg - вспомогательная переменная для определения правой границы диапазона find - функция уточнения диапазона элементы строк и массивов нумеруются с единицы */ for i = 1 to n { lh = n + 1 rh = 0 find(left, right, i) left = lh right = rh } if (left != 0 && right != n + 1) { yield left yield right } else yield "No matches"
Бинарный поиск для уточнения диапазона - функция find(l, r, k)
/* l - левая граница диапазона при поиске r - правая граница диапазона при поиске k - номер символа образца, с которым происходит проверка на данном шаге s - строка length - длина строки array - суффиксный массив x - индекс, стоящий по середине между l и r */ if (l > r) return x = (l + r) / 2 if (array[x] + k - 1 <= length){ if (s[array[x] + k - 1] == p[k]){ if (x < lh) lh = x if (x > rh) rh = x find(l, x - 1, k) find(x + 1, r, k) } else { if (s[array[x] + k - 1] > p[k]) { find(l, x - 1, k) } else { if (s[array[x] + k - 1] < p[k]) { find(x + 1, r, k) } } else { find(l, x - 1, k) find(x + 1, r, k) }
Более быстрый поиск
Существует более быстрый алгоритм поиска образца в строке. Для этого используется
Пусть и - левая и правая границы диапазона ответов в суффиксном массиве . У любого суффикса в пределах этого диапазона есть префикс, который полностью совпадает с образцом.
Пусть - левая граница диапазона поиска (изначально равна 0), - правая граница диапазона поиска (изначально равна ), а .
Пусть , а . В самом начале просто посчитаем и за линейное время, а во время выполнения алгоритма прямой пересчет производиться не будет, изменения будут происходить за .
Пусть , а . Подсчет и можно производить за , если применять алгоритм Фарака-Колтона и Бендера. Любая пара суффиксов из диапазона имеет хотя бы совпадений в префиксах. Аналогично любая пара суффиксов из диапазона имеет хотя бы совпадений в префиксах.
Рассмотрим поиск левой границы диапазона ответов .
Сразу проверим образец с суффиксами по краям исходного диапазона поиска и : если образец лексикографически больше последнего суффикса или меньше первого суффикса, то образец не встречается в строке вовсе и поиск можно прекратить.
ищется при помощи бинарного поиска по суффиксному массиву . На каждом шаге поиска нам надо определять, на каком отрезке или надо продолжать поиск границы . Каждую итерацию бинарного поиска будем сравнивать и . Если , то возможно одно из трех:
- 1.
- 2.
- 3.
Если
- 1.
- 2.
- 3.
. Это означает, что совпадений у суффикса с правого края диапазона поиска с образцом больше, чем у суффикса в позиции . Очевидно, что поиск надо продолжать между и , то есть , а новое значение .
Бинарный поиск будет работать до тех пор, пока
Рассуждения при поиске аналогичны, только нужно не забыть изменить границы поиска на изначальные и .
Таким образом часть бинарного поиска мы сделаем при сравнении нескольких между собой(каждое за ), а если дойдет до сравнения символов, то любой символ сравнивается не более одного раза(при сравнении мы берем , а значит никогда не возвращаемся назад). В самом начале мы посчитали и за . В итоге получаем сложность алгоритма . Правда нужен предподсчет, чтобы можно было брать для двух любых суффиксов за .
Разбор случаев
Условные обозначения:
- 1. Черная вертикальная линия на рисунке обозначает от -го суффикса суффиксного массива и образца . Чем линия длиннее, тем совпадений символов больше.
- 2. L, M и R - то же самое, что в алгоритме. Кроме того, самая левая черная вертикальная линия на каждом рисунке означает , аналогично, самая правая черная вертикальная линия на каждом рисунке означает . Переменная - это в суффиксном массиве на промежутке . Переменная - это в суффиксном массиве на промежутке .
- 3. Серым цветом выделен в суффиксном массиве на рассматриваемом промежутке.
Простой пример для образца
на отсортированных суффиксах строки . Жирным выделены буквы, которые на рисунках будут представлены черными линиями (совпадения с образцом), а серым — совпадения суффиксов друг с другом на промежутке .Дальнейший разбор случаев никак не связан со строкой
Ищется левая граница ответов .
Разберем случай . Возможны три варианта:
- a) . Сдвигаем в . Значение не изменяется.
- b) . Считаем для образца и суффикса, стоящего в позиции , начиная с позиции .
- с) . Сдвигаем в , .
Разберем случай при
. Также возможны три варианта:- a) . Сдвигаем в . Значение не изменяется.
- b) . Считаем для образца и суффикса, стоящего в позиции , начиная с позиции .
- с) . Сдвигаем в , .
Псевдокод
Поиск левой границы ответов
./* Массивы и строки нумеруются с нуля. Сравнения <, > , = , <= , >= означают лексикографическое сравнение двух строк по их первым z символам. Сравнения < , > , == , <= , >= при применении к строкам означают полное лексикографическое сравнение строк. Функция lcp (s, p) ищет количество совпадений символов строк s и p начиная с позиции z. n - длина строки s. w - длина строки p. В алгоритме используются переменные, введенные выше в разделе "более быстрый поиск". */ l = lcp(p, s[array[0]]) r = lcp(p, s[array[n-1]]) if (l == w or p < s[array[0]]) L = 0 else if (p > s[array[n-1]) L = n else { L = 0 R = n - 1 while (R - L > 1) do { M = (L + R)/2 m = lcp(array[L],array[M]) m = lcp(array[M],array[R]) if (l >= r) if (m >= l) m = l + lcp (s[array[M]], p) else m = m else if (m >= r) m = r + lcp (s[array[M]], p) else m = m if (m == w || p <= s[array[M]]){ R = M r = m } else { L = M l = m } } L = R }
Литература
- http://habrahabr.ru/blogs/algorithm/115346/
- U. Manber and G. Mayers. "Suffix arrays: A new method for on-line string searches"