Алгоритм поиска подстроки в строке с помощью суффиксного массива — различия между версиями
Vincent (обсуждение | вклад) |
Vincent (обсуждение | вклад) |
||
Строка 58: | Строка 58: | ||
=== Простейший поиск подстроки === | === Простейший поиск подстроки === | ||
− | Простейший способ узнать, встречается ли образец в тексте, используя суффиксный массив, это взять первый символ образца и бинарным поиском (массив у нас отсортирован) найти диапазон с суффиксами, начинающимися на такую же букву. Так как все элементы в полученном диапазоне отсортированы, а первые символы одинаковые, то оставшиеся после отбрасывания первого символа суффиксы тоже отсортированы. А значит, можно повторять процедуру сужения диапазона поиска уже по второму, затем третьему и так | + | Простейший способ узнать, встречается ли образец в тексте, используя суффиксный массив, это взять первый символ образца и бинарным поиском по суффиксному массиву (массив у нас отсортирован) найти диапазон с суффиксами, начинающимися на такую же букву. Так как все элементы в полученном диапазоне отсортированы, а первые символы одинаковые, то оставшиеся после отбрасывания первого символа суффиксы тоже отсортированы. А значит, можно повторять процедуру сужения диапазона поиска уже по второму, затем третьему и так далее символу образца до получения либо пустого диапазона, либо успешного нахождения всех символов образца. Бинарный поиск работает за <tex> O(log|s|) </tex>, а сравнение суффикса с образцом не может превышать длины образца. Таким образом время работы алгоритмы <tex> O(|p|log|s|)</tex>. <br> |
+ | В примере поиск будет выглядеть так: | ||
+ | |||
+ | {| border="1" | ||
+ | |width="80"|образец | ||
+ | |width="150"|'''''i'''ss'' | ||
+ | |width="150"|'''''is'''s'' | ||
+ | |width="150"|'''''iss''''' | ||
+ | |- | ||
+ | | | ||
+ | |i | ||
+ | |i | ||
+ | |i | ||
+ | |- | ||
+ | | | ||
+ | |ippi | ||
+ | |ippi | ||
+ | |ippi | ||
+ | |- | ||
+ | | | ||
+ | |issippi | ||
+ | |issippi | ||
+ | |issippi | ||
+ | |- | ||
+ | | | ||
+ | |ississippi | ||
+ | |ississippi | ||
+ | |ississippi | ||
+ | |- | ||
+ | | | ||
+ | |mississippi | ||
+ | |mississippi | ||
+ | |mississippi | ||
+ | |- | ||
+ | | | ||
+ | |pi | ||
+ | |pi | ||
+ | |pi | ||
+ | |- | ||
+ | | | ||
+ | |ppi | ||
+ | |ppi | ||
+ | |ppi | ||
+ | |- | ||
+ | | | ||
+ | |sippi | ||
+ | |sippi | ||
+ | |sippi | ||
+ | |- | ||
+ | | | ||
+ | |sissippi | ||
+ | |sissippi | ||
+ | |sissippi | ||
+ | |- | ||
+ | | | ||
+ | |ssippi | ||
+ | |ssippi | ||
+ | |ssippi | ||
+ | |- | ||
+ | | | ||
+ | |ssissippi | ||
+ | |ssissippi | ||
+ | |ssissippi | ||
+ | |} |
Версия 01:49, 8 мая 2011
Рассмотрим такую задачу: у нас есть образец суффиксный массив , построенный для строки . Необходимо найти все вхождения образца в строку .
, строка ,Для наглядности рассмотрим такой пример: образец
Вот суффиксный массив для данной строки:
# | суффикс | номер суффикса |
1 | i | 11 |
2 | ippi | 8 |
3 | issippi | 5 |
4 | ississippi | 2 |
5 | mississippi | 1 |
6 | pi | 10 |
7 | ppi | 9 |
8 | sippi | 7 |
9 | sissippi | 4 |
10 | ssippi | 6 |
11 | ssissippi | 3 |
Способы поиска
Простейший поиск подстроки
Простейший способ узнать, встречается ли образец в тексте, используя суффиксный массив, это взять первый символ образца и бинарным поиском по суффиксному массиву (массив у нас отсортирован) найти диапазон с суффиксами, начинающимися на такую же букву. Так как все элементы в полученном диапазоне отсортированы, а первые символы одинаковые, то оставшиеся после отбрасывания первого символа суффиксы тоже отсортированы. А значит, можно повторять процедуру сужения диапазона поиска уже по второму, затем третьему и так далее символу образца до получения либо пустого диапазона, либо успешного нахождения всех символов образца. Бинарный поиск работает за
В примере поиск будет выглядеть так:
образец | iss | iss | iss |
i | i | i | |
ippi | ippi | ippi | |
issippi | issippi | issippi | |
ississippi | ississippi | ississippi | |
mississippi | mississippi | mississippi | |
pi | pi | pi | |
ppi | ppi | ppi | |
sippi | sippi | sippi | |
sissippi | sissippi | sissippi | |
ssippi | ssippi | ssippi | |
ssissippi | ssissippi | ssissippi |