Изменения

Алгоритм поиска подстроки в строке с помощью суффиксного массива

194 байта убрано, 01:51, 11 мая 2011

→‎Более быстрый поиск

На <tex> i </tex>-ом шаге алгоритма мы определяем диапазон, в котором <tex> i </tex> первых символов образца и суффиксов диапазона совпадают. На самом деле нам не обязательно на каждом шаге проверять лишь один новый символ. Воспользуемся <tex> lcp </tex>(longest common prefix). <br>

Пусть левая и правая границы нашего диапазона на каком-то шаге - это <tex> L </tex> и <tex> R </tex> соответственно. Допустим, что мы знаем длину общего префикса образца с суффиксами, лежащими на краях текущего диапазона: <tex> l </tex> - общий префикс образца и суффикса с левого края (<tex> l = lcp(p, array[L]) </tex>), а <tex> r </tex> - общий префикс образца и суффикса с правого края, (<tex> r = lcp(p, array[R]) </tex>). Будем поддерживать <tex> l </tex> и <tex> r </tex> после каждого уточнения границ диапазона. <br>

Для каждой пары суффиксов внутри текущего диапазона их lcp не меньше, чем минимум из <tex> l </tex> и <tex> r </tex>, то есть

общий префикс образца и любого суффикса внутри диапазона не меньше <tex> m = min(l,r) </tex>. Значит <tex> m </tex> символов можно пропускать сразу, зная, что они совпадают в любом случае, и сравнивать ~~только начиная с~~ уже <tex> m + 1 </tex> ~~символа~~символ.

[[Файл:pic.png|450px]]

~~Таким образом мы применим оптимизированное сравнение строк в бинарном поиске строки «в лоб».~~ В худшем случае, конечно, ничего мы от этого не выиграем: если искомый элемент находится на краю массива, но соседи совсем не похожи по <tex> lcp </tex>, то <tex> r </tex> (или <tex> l </tex>) будет мало каждый раз, <tex> m </tex> будет тоже мало, что сведет оптимизацию на нет. Таким образом в наихудшем случае результат будет прежним <tex> O(|p|log|s|) </tex>, но в среднем <tex> O(|p| + log|s|) </tex>.

==Литература==

* http://habrahabr.ru/blogs/algorithm/115346/

Анонимный участник

192.168.0.2

Изменения

Алгоритм поиска подстроки в строке с помощью суффиксного массива

Навигация

Персональные инструменты

Пространства имён

Варианты

Просмотры

Ещё

Поиск

Навигация

Инструменты