Изменения

Поиск подстроки в строке

4919 байт добавлено, 05:10, 27 мая 2018

→‎Сравнение алгоритмов

'''Поиск подстроки в строке''' (англ. ''String searching algorithm'') — класс алгоритмов над строками, которые позволяют найти паттерн (''~~needle~~pattern'') в тексте (''~~haystack~~text'').

== Классификация алгоритмов поиска подстроки в строке ==

=== Сравнение — «чёрный ящик» ===

Во всех алгоритмах этого типа сравнение является ~~черным ящиком~~ «чёрным ящиком» для программиста. Преимущества:* ~~+ Позволяет~~ позволяет использовать стандартные функции сравнения участков памяти (man *cmp(3)), которые, зачастую, оптимизированы под конкретное железо. Недостатки:* ~~- Не~~ не выдается точка, в которой произошло несовпадение.

=== По порядку сравнения паттерна в тексте ===

==== Прямой ====

Преимущества:

* отсутствие регрессии на «плохих» данных.

~~==== Прямой ====~~Недостатки:* ~~+ Отсутсвие регрессии на «плохих» данных.~~* - Не не самая хорошая средняя ~~ассимптотическая~~ асимптотическая сложность.

==== Обратный ====

Паттерн движется по тексту слева ~~на право~~направо, но сравнение подстрок происходит ~~с права на лево~~справа налево. Преимущества:* ~~+ При~~ при несовпадении позволяет перемещать паттерн по строке сразу на несколько символов. Недостатки:* производительность сильно зависит от данных.

==== Сравнение в необычном порядке ====

Специфические алгоритмы, основанные, как правило, на некоторых эмпирических наблюдениях над словарём. <ref>Например, [[Wikipedia:en:Raita Algorithm| Алгоритм Райты (англ.)]]</ref>

=== По количеству поисковых шаблонов ===

~~#Один~~ Сколько поисковых шаблонов может обработать алгоритм за один раз. * один шаблон (англ. ''~~Single~~ single pattern algorithms'')~~#Конечное~~ * конечное количество шаблонов (англ. ''finite set of patterns'')~~#Бесконечное~~ * бесконечное количество шаблонов (~~Регулярные грамматики/regexp~~англ. ''infinite number of patterns'ы') (см. [[Теория формальных языков]])

=== По необходимости препроцессинга текста ===

*[[Z-функция]]

*[[Бор]]

*[[~~Суффиксный_массив~~Суффиксный массив]]

Алгоритмы, использующие препроцессинг — одни из самых быстрых в этом классе.

== Сравнение алгоритмов ==

*<tex>|\Sigma| = \sigma</tex> — размер алфавита

*<tex>|~~haystack~~text| = ht</tex> — длина текста*<tex>|~~needle~~pattern| = np</tex> — длина паттерна

*<tex>a</tex> — размер ответа(кол-во пар)

*<tex>m</tex> — суммарная длина ~~всх~~ всех паттернов

{|class="wikitable"

|+

|- align = "center"

|[[Наивный алгоритм поиска подстроки в строке| Наивный алгоритм (Brute Force algorithm)]]

|<tex>O(n p \cdot (h t - np))</tex>|<tex>O(nt^2)</tex>|~~Нет~~

|<tex>O(1)</tex>

|Single

|Прямой

|Сравнение — «чёрный ящик». Если <tex>np</tex> достаточно мало по сравнению с <tex>ht</tex>, то ~~ассимптотика~~ асимптотика будет близкой к <tex>O(ht)</tex>, что позволяет использовать его на практике в случаях, когда паттерн много меньше текста (например, ~~ctrl~~Ctrl+F в браузерах)

|- align = "center"|[~~http://www-igm.univ~~[Z-~~mlv.fr/~lecroq/string/node18.html#SECTION00180~~функция| ~~Алгоритм Бойера~~Поиск подстроки в строке с помощью Z-~~Мура-Хорспула (Horspool algorithm)~~функции]]|<tex>O(nht)</tex>|<tex>O(nht)</tex>|~~Да ~~ <tex>O(n p + ~~\sigma~~t)</tex>|<tex>O(~~\sigma~~p)</tex>

|Single

|Прямой

|В самой простой реализации использует только эвристику стоп-символа и относится к алгоритмом с сравнением — «чёрным ящиком».

|- align = "center"

|[[Поиск подстроки в строке с использованием хеширования. Алгоритм Рабина-Карпа| Алгоритм Рабина-Карпа (Karp-Rabin algorithm)]]

|<tex>O(n p + ht)</tex>|<tex>O(nhpt)</tex>|~~Да ~~ <tex>O(np)</tex>

|<tex>O(1)</tex>

|Single/ Finite

|Прямой

|Данный алгоритм использует хэширование, что снижает скорость в среднем.Можно модифицировать для поиска нескольких паттернов

|- align = "center"

|[[Алгоритм Кнута-Морриса-Пратта| Алгоритм Кнута-Морриса-Пратта (Knuth-Morris-Pratt algorith)]]

|<tex>O(n p + ht)</tex>|<tex>O(n p + ht)</tex>|~~Да ~~ <tex>O(np)</tex>|<tex>O(np)</tex>

|Single

|Прямой

|Использует [[Префикс-функция| префикс-функцию]]

|-align = "center"

|[[Алгоритм Колусси| Алгоритм Колусси (Colussi algorithm)]]

|<tex>O(t)</tex>

|<tex>O(p)</tex>

|Single

|Прямой / Обратный

|Оптимизация [[Алгоритм Кнута-Морриса-Пратта| Алгоритма Кнута-Морриса-Пратта]] использует как прямой, так и обратный обход

|- align = "center"

|[[Алгоритм Ахо-Корасик| Алгоритм Ахо-Корасик (Aho–Corasick string matching algorithm)]]

|<tex>O(m + h t + a)</tex>|<tex>O(ht)</tex>|Да <tex>O(m)</tex>

|<tex>O(m\sigma)</tex>

|~~finite~~Finite|Прямой|Строит конечный автомат. Можно хранить таблицу переходов как индексный массив (array), а можно как [[Красно-черное дерево]]. В последнем случае уменьшится расход памяти, но ухудшится асимптотика |-align = "center"|[[Алгоритм Shift-Or]]|<tex>O(t)</tex>|<tex>O(t \cdot \dfrac{n}{w})</tex> <tex>w</tex> — размер машинного слова|<tex>O(p + \sigma)</tex>|<tex>O(p + \sigma)</tex>|Single|Прямой|Использует тот факт, что в современных процессорах битовые сдвиг и или являются атомарными. Эффективен, если <tex>p \leqslant w</tex>. Иначе деградирует и по памяти, и по сложности |-align = "center"|[[Алгоритм Бойера-Мура| Алгоритм Бойера-Мура (Boyer-Moore algorithm)]]|<tex>O(t)</tex>|<tex>O(pt)</tex>|<tex>O(p + \sigma)</tex>|<tex>O(p + \sigma)</tex>|Single|Обратный|Считается наиболее быстрым из алгоритмов общего назначения. Использует эвристики. Существует большое количество оптимизаций<ref>Например, [http://www-igm.univ-mlv.fr/~lecroq/string/node15.html#SECTION00150 Турбо-алгоритм Бойера-Мура (Turbo-BM algorithm)]</ref> |-align = "center"|[[Алгоритм поиска подстроки в строке с помощью суффиксного массива| Поиск подстроки в строке с помощью суффиксного массива (Suffix array)]]|<tex>O(p\log t)</tex>|<tex>O(p\log t)</tex>|<tex>O(t)</tex>|<tex>O(t)</tex>|Single|Прямой|Использует [[Суффиксный массив]]. Если использовать [[Алгоритм Касаи и др.| Largest common prefix (lcp)]], то можно уменьшить асимптотику до <tex>O(p + \log t)</tex>. Суффиксный массив можно строить[[Построение суффиксного массива с помощью стандартных методов сортировки| стандартными способами]] или [[Алгоритм Карккайнена-Сандерса| алгоритмом Карккайнена-Сандерса]]. Асимптотика приведена для построения суффиксного массива с помощью алгоритма Карккайнена-Сандерса |-align = "center"|[[Сжатое суффиксное дерево| Поиск подстроки в строке с помощью суффиксного дерева (Suffix tree)]]|<tex>O(p)</tex>|<tex>O(p)</tex>|<tex>O(t)</tex>|<tex>O(t)</tex>|Single|Прямой|Позволяет выполнять поиск подстроки в строке за линейное время |- align = "center"|[[Алгоритм Апостолико-Крочемора| Алгоритм Апостолико-Крочемора ( Apostolico-Crochemore algorithm)]]|<tex>O(t)</tex>|<tex>O(t)</tex>|<tex>O(p)</tex>|<tex>O(p)</tex>|Single

|Прямой

|~~Строит конечный автомат~~В худшем случае выполнит <tex>\dfrac{3}{2} n</tex> сравнений.

|}

== Примечания ==

== Источники информации ==

* [[wikipedia:ru:Поиск_подстроки | Википедия {{---}} Поиск подстроки]]

* [[Wikipedia:en:String_searching_algorithm | Википедия {{---}} String searching algorithm]]

* [http://www-igm.univ-mlv.fr/~lecroq/string/index.html ESMAJ] — (англ.) Большое количество разных алгоритмов поиска подстроки в строке. Многие из них в данной статье не описаны.

[[Категория: Дискретная математика и алгоритмы]]

[[Категория: Поиск подстроки в строке]]

Анонимный участник

94.51.118.161

Изменения

Поиск подстроки в строке

Навигация

Персональные инструменты

Пространства имён

Варианты

Просмотры

Ещё

Поиск

Навигация

Инструменты