Алгоритм поиска подстроки в строке с помощью суффиксного массива — различия между версиями
Vincent (обсуждение | вклад) |
Vincent (обсуждение | вклад) |
||
Строка 52: | Строка 52: | ||
|ssissippi | |ssissippi | ||
|3 | |3 | ||
− | |||
|} | |} | ||
+ | |||
+ | == Способы поиска == | ||
+ | |||
+ | === Простейший поиск подстроки === | ||
+ | |||
+ | Простейший способ узнать, встречается ли образец в тексте, используя суффиксный массив, это взять первый символ образца и бинарным поиском (массив у нас отсортирован) найти диапазон с суффиксами, начинающимися на такую же букву. Так как все элементы в полученном диапазоне отсортированы, а первые символы одинаковые, то оставшиеся после отбрасывания первого символа суффиксы тоже отсортированы. А значит, можно повторять процедуру сужения диапазона поиска уже по второму, затем третьему и так до конца символу образца до получения либо пустого диапазона, либо успешного нахождения всех символов образца. Бинарный поиск работает за <tex> O(log|s|) </tex>, а сравнение суффикса с образцом не может превышать длины образца. Таким образом время работы алгоритмы <tex> O(|p|log|s|)</tex>. |
Версия 01:37, 8 мая 2011
Рассмотрим такую задачу: у нас есть образец суффиксный массив , построенный для строки . Необходимо найти все вхождения образца в строку .
, строка ,Для наглядности рассмотрим такой пример: образец
Вот суффиксный массив для данной строки:
# | суффикс | номер суффикса |
1 | i | 11 |
2 | ippi | 8 |
3 | issippi | 5 |
4 | ississippi | 2 |
5 | mississippi | 1 |
6 | pi | 10 |
7 | ppi | 9 |
8 | sippi | 7 |
9 | sissippi | 4 |
10 | ssippi | 6 |
11 | ssissippi | 3 |
Способы поиска
Простейший поиск подстроки
Простейший способ узнать, встречается ли образец в тексте, используя суффиксный массив, это взять первый символ образца и бинарным поиском (массив у нас отсортирован) найти диапазон с суффиксами, начинающимися на такую же букву. Так как все элементы в полученном диапазоне отсортированы, а первые символы одинаковые, то оставшиеся после отбрасывания первого символа суффиксы тоже отсортированы. А значит, можно повторять процедуру сужения диапазона поиска уже по второму, затем третьему и так до конца символу образца до получения либо пустого диапазона, либо успешного нахождения всех символов образца. Бинарный поиск работает за
, а сравнение суффикса с образцом не может превышать длины образца. Таким образом время работы алгоритмы .