Поиск подстроки в строке — различия между версиями

Текущая версия на 19:31, 4 сентября 2022

Поиск подстроки в строке (англ. String searching algorithm) — класс алгоритмов над строками, которые позволяют найти паттерн (pattern) в тексте (text).

Содержание

1 Классификация алгоритмов поиска подстроки в строке
2 Сравнение алгоритмов
3 Примечания
4 Источники информации

Классификация алгоритмов поиска подстроки в строке

Сравнение — «чёрный ящик»

Во всех алгоритмах этого типа сравнение является «чёрным ящиком» для программиста.

Преимущества:

позволяет использовать стандартные функции сравнения участков памяти (man *cmp(3)), которые, зачастую, оптимизированы под конкретное железо.

Недостатки:

не выдается точка, в которой произошло несовпадение.

По порядку сравнения паттерна в тексте

Прямой

Преимущества:

отсутствие регрессии на «плохих» данных.

Недостатки:

не самая хорошая средняя асимптотическая сложность.

Обратный

Паттерн движется по тексту слева направо, но сравнение подстрок происходит справа налево.

Преимущества:

при несовпадении позволяет перемещать паттерн по строке сразу на несколько символов.

Недостатки:

производительность сильно зависит от данных.

Сравнение в необычном порядке

Специфические алгоритмы, основанные, как правило, на некоторых эмпирических наблюдениях над словарём.^[1]

По количеству поисковых шаблонов

Сколько поисковых шаблонов может обработать алгоритм за один раз.

один шаблон (англ. single pattern algorithms)
конечное количество шаблонов (англ. finite set of patterns)
бесконечное количество шаблонов (англ. infinite number of patterns) (см. Теория формальных языков)

По необходимости препроцессинга текста

Виды препроцессинга:

Алгоритмы, использующие препроцессинг — одни из самых быстрых в этом классе.

Сравнение алгоритмов

[math]|\Sigma| = \sigma[/math] — размер алфавита
[math]|text| = t[/math] — длина текста
[math]|pattern| = p[/math] — длина паттерна
[math]a[/math] — размер ответа(кол-во пар)
[math]m[/math] — суммарная длина всех паттернов


Название	Среднее	Худшее	Препроцессинг	Дополнительная память	Кол-во поисковых шаблонов	Порядок сравнения	Описание
Наивный алгоритм (Brute Force algorithm)	[math]O(p \cdot (t - p))[/math]	[math]O(t^2)[/math]		[math]O(1)[/math]	Single	Прямой	Сравнение — «чёрный ящик». Если [math]p[/math] достаточно мало по сравнению с [math]t[/math], то асимптотика будет близкой к [math]O(t)[/math], что позволяет использовать его на практике в случаях, когда паттерн много меньше текста (например, Ctrl+F в браузерах)
Поиск подстроки в строке с помощью Z-функции	[math]O(t)[/math]	[math]O(t)[/math]	[math]O(p + t)[/math]	[math]O(p)[/math]	Single	Прямой
Алгоритм Рабина-Карпа (Karp-Rabin algorithm)	[math]O(p + t)[/math]	[math]O(pt)[/math]	[math]O(p)[/math]	[math]O(1)[/math]	Single / Finite	Прямой	Данный алгоритм использует хэширование, что снижает скорость в среднем. Можно модифицировать для поиска нескольких паттернов
Алгоритм Кнута-Морриса-Пратта (Knuth-Morris-Pratt algorith)	[math]O(p + t)[/math]	[math]O(p + t)[/math]	[math]O(p)[/math]	[math]O(p)[/math]	Single	Прямой	Использует префикс-функцию
Алгоритм Колусси (Colussi algorithm)	[math]O(t)[/math]	[math]O(t)[/math]	[math]O(p)[/math]	[math]O(p)[/math]	Single	Прямой / Обратный	Оптимизация Алгоритма Кнута-Морриса-Пратта использует как прямой, так и обратный обход
Алгоритм Ахо-Корасик (Aho–Corasick string matching algorithm)	[math]O(m + t + a)[/math]	[math]O(t)[/math]	[math]O(m)[/math]	[math]O(m\sigma)[/math]	Finite	Прямой	Строит конечный автомат. Можно хранить таблицу переходов как индексный массив (array), а можно как Красно-черное дерево. В последнем случае уменьшится расход памяти, но ухудшится асимптотика
Алгоритм Shift-Or	[math]O(t)[/math]	[math]O(t \cdot \dfrac{n}{w})[/math] [math]w[/math] — размер машинного слова	[math]O(p + \sigma)[/math]	[math]O(p + \sigma)[/math]	Single	Прямой	Использует тот факт, что в современных процессорах битовые сдвиг и или являются атомарными. Эффективен, если [math]p \leqslant w[/math]. Иначе деградирует и по памяти, и по сложности
Алгоритм Бойера-Мура (Boyer-Moore algorithm)	[math]O(t)[/math]	[math]O(pt)[/math]	[math]O(p + \sigma)[/math]	[math]O(p + \sigma)[/math]	Single	Обратный	Считается наиболее быстрым из алгоритмов общего назначения. Использует эвристики. Существует большое количество оптимизаций^[2]
Поиск подстроки в строке с помощью суффиксного массива (Suffix array)	[math]O(p\log t)[/math]	[math]O(p\log t)[/math]	[math]O(t)[/math]	[math]O(t)[/math]	Single	Прямой	Использует Суффиксный массив. Если использовать Largest common prefix (lcp), то можно уменьшить асимптотику до [math]O(p + \log t)[/math]. Суффиксный массив можно строить стандартными способами или алгоритмом Карккайнена-Сандерса. Асимптотика приведена для построения суффиксного массива с помощью алгоритма Карккайнена-Сандерса
Поиск подстроки в строке с помощью суффиксного дерева (Suffix tree)	[math]O(p)[/math]	[math]O(p)[/math]	[math]O(t)[/math]	[math]O(t)[/math]	Single	Прямой	Позволяет выполнять поиск подстроки в строке за линейное время
Алгоритм Апостолико-Крочемора ( Apostolico-Crochemore algorithm)	[math]O(t)[/math]	[math]O(t)[/math]	[math]O(p)[/math]	[math]O(p)[/math]	Single	Прямой	В худшем случае выполнит [math]\dfrac{3}{2} n[/math] сравнений.

Примечания

↑ Например, Алгоритм Райты (англ.)
↑ Например, Турбо-алгоритм Бойера-Мура
(Turbo-BM algorithm)

Источники информации

Википедия — Поиск подстроки
Википедия — String searching algorithm
ESMAJ — (англ.) Большое количество разных алгоритмов поиска подстроки в строке. Многие из них в данной статье не описаны.

[1] Например, Алгоритм Райты (англ.)

[2] Например, Турбо-алгоритм Бойера-Мура
(Turbo-BM algorithm)

[1]

[2]

@@ Строка 1: / Строка 1: @@
-'''Поиск подстроки в строке''' (англ. ''String searching algorithm'') — класс алгоритмов над строками, которые позволяют найти паттерн (''needle'') в тексте (''haystack'').
+'''Поиск подстроки в строке''' (англ. ''String searching algorithm'') — класс алгоритмов над строками, которые позволяют найти паттерн (''pattern'') в тексте (''text'').
 == Классификация алгоритмов поиска подстроки в строке ==
@@ Строка 5: / Строка 5: @@
 Во всех алгоритмах этого типа сравнение является «чёрным ящиком» для программиста.
-===== Преимущества =====
-* Позволяет использовать стандартные функции сравнения участков памяти (man *cmp(3)), которые, зачастую, оптимизированы под конкретное железо.
+Преимущества:
-===== Недостатки =====
+* позволяет использовать стандартные функции сравнения участков памяти (man *cmp(3)), которые, зачастую, оптимизированы под конкретное железо.
-* Не выдается точка, в которой произошло несовпадение.
+Недостатки:
+* не выдается точка, в которой произошло несовпадение.
 === По порядку сравнения паттерна в тексте ===
+==== Прямой ====
-===== Преимущества =====
+Преимущества:
-* Отсутсвие регрессии на «плохих» данных.
+* отсутствие регрессии на «плохих» данных.
-===== Недостатки =====
-* Не самая хорошая средняя асимптотическая сложность.
+Недостатки:
+* не самая хорошая средняя асимптотическая сложность.
 ==== Обратный ====
-Паттерн движется по тексту слева на право, но сравнение подстрок происходит справа налево.
+Паттерн движется по тексту слева направо, но сравнение подстрок происходит справа налево.
-===== Преимущества =====
-* При несовпадении позволяет перемещать паттерн по строке сразу на несколько символов
+Преимущества:
+* при несовпадении позволяет перемещать паттерн по строке сразу на несколько символов.
+Недостатки:
+* производительность сильно зависит от данных.
 ==== Сравнение в необычном порядке ====
@@ Строка 43: / Строка 51: @@
 == Сравнение алгоритмов ==
 *<tex>|\Sigma| = \sigma</tex> — размер алфавита
-*<tex>|haystack| = h</tex> — длина текста
+*<tex>|text| = t</tex> — длина текста
-*<tex>|needle| = n</tex> — длина паттерна
+*<tex>|pattern| = p</tex> — длина паттерна
 *<tex>a</tex> — размер ответа(кол-во пар)
 *<tex>m</tex> — суммарная длина всех паттернов
@@ Строка 54: / Строка 62: @@
 |- align = "center"
 |[[Наивный алгоритм поиска подстроки в строке| Наивный алгоритм <br>(Brute Force algorithm)]]
-|<tex>O(n \cdot (h - n))</tex>
+|<tex>O(p \cdot (t - p))</tex>
-|<tex>O(n^2)</tex>
+|<tex>O(t^2)</tex>
 |
 |<tex>O(1)</tex>
 |Single
 |Прямой
-|Сравнение — «чёрный ящик». Если <tex>n</tex> достаточно мало по сравнению с <tex>h</tex>, то асимптотика будет близкой к <tex>O(h)</tex>, что позволяет использовать его на практике в случаях, когда паттерн много меньше текста (например, ctrl+F в браузерах)
+|Сравнение — «чёрный ящик». Если <tex>p</tex> достаточно мало по сравнению с <tex>t</tex>, то асимптотика будет близкой к <tex>O(t)</tex>, что позволяет использовать его на практике в случаях, когда паттерн много меньше текста (например, Ctrl+F в браузерах)
 |-align = "center"
 |[[Z-функция| Поиск подстроки в строке с помощью Z-функции]]
-|<tex>O(h)</tex>
+|<tex>O(t)</tex>
-|<tex>O(h)</tex>
+|<tex>O(t)</tex>
-|<tex>O(h + n)</tex>
+|<tex>O(p + t)</tex>
-|<tex>O(n)</tex>
+|<tex>O(p)</tex>
 |Single
 |Прямой
@@ Строка 74: / Строка 82: @@
 |- align = "center"
 |[[Поиск подстроки в строке с использованием хеширования. Алгоритм Рабина-Карпа| Алгоритм Рабина-Карпа <br>(Karp-Rabin algorithm)]]
-|<tex>O(n + h)</tex>
+|<tex>O(p + t)</tex>
-|<tex>O(nh)</tex>
+|<tex>O(pt)</tex>
-|<tex>O(n)</tex>
+|<tex>O(p)</tex>
 |<tex>O(1)</tex>
 |Single / Finite
@@ Строка 84: / Строка 92: @@
 |- align = "center"
 |[[Алгоритм Кнута-Морриса-Пратта| Алгоритм Кнута-Морриса-Пратта <br>(Knuth-Morris-Pratt algorith)]]
-|<tex>O(n + h)</tex>
+|<tex>O(p + t)</tex>
-|<tex>O(n + h)</tex>
+|<tex>O(p + t)</tex>
-|<tex>O(n)</tex>
+|<tex>O(p)</tex>
-|<tex>O(n)</tex>
+|<tex>O(p)</tex>
 |Single
 |Прямой
@@ Строка 94: / Строка 102: @@
 |-align = "center"
 |[[Алгоритм Колусси| Алгоритм Колусси <br>(Colussi algorithm)]]
-|<tex>O(h)</tex>
+|<tex>O(t)</tex>
-|<tex>O(h)</tex>
+|<tex>O(t)</tex>
-|<tex>O(n)</tex>
+|<tex>O(p)</tex>
-|<tex>O(n)</tex>
+|<tex>O(p)</tex>
 |Single
 |Прямой / Обратный
@@ Строка 104: / Строка 112: @@
 |- align = "center"
 |[[Алгоритм Ахо-Корасик| Алгоритм Ахо-Корасик <br>(Aho–Corasick string matching algorithm)]]
-|<tex>O(m + h + a)</tex>
+|<tex>O(m + t + a)</tex>
-|<tex>O(h)</tex>
+|<tex>O(t)</tex>
 |<br> <tex>O(m)</tex>
 |<tex>O(m\sigma)</tex>
@@ Строка 114: / Строка 122: @@
 |-align = "center"
 |[[Алгоритм Shift-Or]]
-|<tex>O(h)</tex>
+|<tex>O(t)</tex>
-|<tex>O(h \cdot \dfrac{n}{w})</tex> <br> <tex>w</tex> — размер машинного слова
+|<tex>O(t \cdot \dfrac{n}{w})</tex> <br> <tex>w</tex> — размер машинного слова
-|<tex>O(n + \sigma)</tex>
+|<tex>O(p + \sigma)</tex>
-|<tex>O(n + \sigma)</tex>
+|<tex>O(p + \sigma)</tex>
 |Single
 |Прямой
-|Использует тот факт, что в современных процессорах битовые сдвиг и или являются атомарными. Эффективен, если <tex>n \leqslant w</tex>. Иначе деградирует и по памяти, и по сложности
+|Использует тот факт, что в современных процессорах битовые сдвиг и или являются атомарными. Эффективен, если <tex>p \leqslant w</tex>. Иначе деградирует и по памяти, и по сложности
 |-align = "center"
 |[[Алгоритм Бойера-Мура| Алгоритм Бойера-Мура <br>(Boyer-Moore algorithm)]]
-|<tex>O(h)</tex>
+|<tex>O(t)</tex>
-|<tex>O(hn)</tex>
+|<tex>O(pt)</tex>
-|<tex>O(n + \sigma)</tex>
+|<tex>O(p + \sigma)</tex>
-|<tex>O(n + \sigma)</tex>
+|<tex>O(p + \sigma)</tex>
 |Single
 |Обратный
@@ Строка 134: / Строка 142: @@
 |-align = "center"
 |[[Алгоритм поиска подстроки в строке с помощью суффиксного массива| Поиск подстроки в строке с помощью суффиксного массива <br>(Suffix array)]]
-|<tex>O(n\log h)</tex>
+|<tex>O(p\log t)</tex>
-|<tex>O(n\log h)</tex>
+|<tex>O(p\log t)</tex>
-|<tex>O(h)</tex>
+|<tex>O(t)</tex>
-|<tex>O(h)</tex>
+|<tex>O(t)</tex>
 |Single
 |Прямой
-|Использует [[Суффиксный массив]]. Если использовать [[Алгоритм Касаи и др.| Largest common prefix (lcp)]], то можно уменьшить асимптотику до <tex>O(n + \log h)</tex>. Суффиксный массив можно строить[[Построение суффиксного массива с помощью стандартных методов сортировки| стандартными способами]] или [[Алгоритм Каркайнена-Сандерса| алгоритмом Каркайнена-Сандерса]]. Асимптотика приведена для построения суффиксного массива с помощью алгоритма Каркайнена-Сандерса
+|Использует [[Суффиксный массив]]. Если использовать [[Алгоритм Касаи и др.| Largest common prefix (lcp)]], то можно уменьшить асимптотику до <tex>O(p + \log t)</tex>. Суффиксный массив можно строить[[Построение суффиксного массива с помощью стандартных методов сортировки| стандартными способами]] или [[Алгоритм Карккайнена-Сандерса| алгоритмом Карккайнена-Сандерса]]. Асимптотика приведена для построения суффиксного массива с помощью алгоритма Карккайнена-Сандерса
 |-align = "center"
 |[[Сжатое суффиксное дерево| Поиск подстроки в строке с помощью суффиксного дерева <br>(Suffix tree)]]
-|<tex>O(n)</tex>
+|<tex>O(p)</tex>
-|<tex>O(n)</tex>
+|<tex>O(p)</tex>
-|<tex>O(h)</tex>
+|<tex>O(t)</tex>
-|<tex>O(h)</tex>
+|<tex>O(t)</tex>
 |Single
 |Прямой
 |Позволяет выполнять поиск подстроки в строке за линейное время
+|- align = "center"
+|[[Алгоритм Апостолико-Крочемора| Алгоритм Апостолико-Крочемора <br>( Apostolico-Crochemore algorithm)]]
+|<tex>O(t)</tex>
+|<tex>O(t)</tex>
+|<tex>O(p)</tex>
+|<tex>O(p)</tex>
+|Single
+|Прямой
+|В худшем случае выполнит <tex>\dfrac{3}{2} n</tex> сравнений.
 |}

Поиск подстроки в строке — различия между версиями

Текущая версия на 19:31, 4 сентября 2022

Содержание

Классификация алгоритмов поиска подстроки в строке

Сравнение — «чёрный ящик»

По порядку сравнения паттерна в тексте

Прямой

Обратный

Сравнение в необычном порядке

По количеству поисковых шаблонов

По необходимости препроцессинга текста

Сравнение алгоритмов

Примечания

Источники информации

Навигация

Персональные инструменты

Пространства имён

Варианты

Просмотры

Ещё

Поиск

Навигация

Инструменты