Двусторонний алгоритм — различия между версиями

Текущая версия на 19:31, 4 сентября 2022

Двусторонний алгоритм (англ. Two Way algorithm) — алгоритм поиска подстроки в строке.

Содержание

1 Характерные черты
2 Описание алгоритма
3 Псевдокод
4 Ценность алгоритма
5 См. также
6 Примечания
7 Источники информации

Характерные черты

Требует упорядоченный алфавит,
этап предобработки занимает [math]O(m)[/math] времени и константное количество памяти,
этап поиска за время [math]O(n)[/math], где [math]m[/math] — длина образца, а [math]n[/math] — длина текста.

Описание алгоритма

Строка [math]x[/math] разбивается на две части [math]u[/math] и [math]v[/math] так, что [math]x = uv[/math]. Затем фаза поиска в двустороннем алгоритме состоит в сравнении символов [math]v[/math] слева направо, и затем, если на первом этапе не происходит несовпадений, в сравнении символов [math]u[/math] справа налево (второй этап). Фаза предобработки, таким образом, заключается в поиске подходящего разбиения [math](u, v)[/math].

Определение:

— разбиение строки , если .

Определение:

Пусть — разбиение . Повторение в — слово такое, что для него выполнены следующие условия:

[math]w[/math] — суффикс [math]u[/math] или [math]u[/math] — суффикс [math]w[/math].
[math]w[/math] — префикс [math]v[/math] или [math]v[/math] — префикс [math]w[/math].

Определение:

Длина повторения в называется локальным периодом; наименьший локальный период записывается как . Каждое разбиение на имеет как минимум одно повторение. Очевидно, что

Определение:

Разбиение на такое, что называется критическим разбиением .

Если [math](u, v)[/math] — критическое разбиение [math]x[/math], то на позиции [math]|u|[/math] в [math]x[/math] общий и локальный периоды одинаковы. Двусторонний алгоритм находит критическое разбиение [math](u, v)[/math] такое, что [math]|u| \lt per(x)[/math] и длина [math]|u|[/math] минимальна. Чтобы найти критическое разбиение [math](u, v)[/math] мы сперва вычислим [math]z[/math] — максимальный суффикс [math]x[/math] в лексикографическом порядке, характерном для заданного алфавита [math]\leqslant[/math] и максимальный суффикс [math]\widetilde{z}[/math] для обратного лексикографического порядка [math]\geqslant[/math]. Затем [math](u, v)[/math] выбираются так, что .

Фаза поиска в двустороннем алгоритме состоит из сравнения символов [math]v[/math] слева направо и символов [math]u[/math] справа налево. Когда происходит несовпадение при просмотре [math]k[/math]-го символа в [math]v[/math], производится сдвиг длиной [math]k[/math]. Когда происходит несовпадение при просмотре [math]u[/math] или когда образец встретился в строке, производится сдвиг длиной [math]per(x)[/math]. Такие действия приводят к квадратичной работе алгоритма в худшем случае, но этого можно избежать запоминанием префикса: когда производится сдвиг длиной [math]per(x)[/math], длина совпадающего префикса образца в начале "окна" (а именно [math]m - per(x)[/math]) после сдвига запоминается, чтобы не просматривать ее заново при следующем проходе.

Псевдокод

function twoWaySearch(String pattern, String text): vector<int>
    //предобработка [math]-[/math] вычисление критической позиции (в которой строка делится на [math]u[/math] и [math]v[/math])
    [math]\langle[/math]l1, p1[math]\rangle[/math] = maxSuffix(pattern, [math]\leqslant[/math])
    [math]\langle[/math]l2, p2[math]\rangle[/math] = maxSuffix(pattern, [math]\geqslant[/math])
    [math]\langle[/math]l, p[math]\rangle[/math] = l1 [math]\geqslant[/math] l2 ? [math]\langle[/math]l1, p1[math]\rangle[/math] : [math]\langle[/math]l2, p2[math]\rangle[/math]
    //[math]p[/math] [math]-[/math] период [math]x[/math], [math]l[/math] [math]-[/math] такая критическая позиция, что [math]l\lt p[/math]
    vector<int>  occurences  // набор всех вхождений образца в текст
    int pos = 0
    int memPrefix = 0
    while pos + pattern.length [math]\leqslant[/math] text.length
    //первый этап: просмотр [math]v[/math] слева направо
        int i = max(l, memPrefix) + 1
        while i [math]\leqslant[/math] pattern.length and pattern[i] = text[pos + i]
            i++
        if i [math]\leqslant[/math] pattern.length
            pos = pos + max(i - l, memPrefix - p + 1)
            memPrefix = 0
        else
            //второй этап: просмотр [math]u[/math] справа налево
            int j = l
            while j [math] \gt  [/math] memPrefix and pattern[j] [math]=[/math] text[pos + j]
                j--
            if j [math]\leqslant[/math] memPrefix
                occurences.pushBack(pos)  
            pos = pos + p
            memPrefix = pattern.length - p
    return occurences

Ценность алгоритма

Двусторонний алгоритм отчасти похож на алгоритм Бойера-Мура (просмотр символов справа налево и сдвиг позиции при несовпадении на втором этапе), и в лучшем случае работает немногим медленнее его, а в худшем — значительно превосходит^[1], но главное отличие двустороннего алгоритма от алгоритмов Кнута-Морриса-Пратта и Бойера-Мура — константное количество затрачиваемой дополнительной памяти.

Именно этот алгоритм (при выполнении ряда условий) используется в реализации поиска подстроки в glibc^[2].

См. также

Примечания

↑ Journal of the Association for Computing Machinery, Vol. 38, No, 1, July 1991 Оценки скорости работы
↑ Реализация функции strstr в glibc

Источники информации

[1] Journal of the Association for Computing Machinery, Vol. 38, No, 1, July 1991 Оценки скорости работы

[2] Реализация функции strstr в glibc

[1]

[2]

@@ Строка 35: / Строка 35: @@
 ==Псевдокод==
-  '''function''' twoWaySearch('''String''' pattern, '''String''' text): '''int'''
+  '''function''' twoWaySearch('''String''' pattern, '''String''' text): '''vector<int>'''
       <font color=green>//предобработка <tex>-</tex> вычисление критической позиции (в которой строка делится на <tex>u</tex> и <tex>v</tex>)</font>
       <tex>\langle</tex>l1, p1<tex>\rangle</tex> = maxSuffix(pattern, <tex>\leqslant</tex>)
       <tex>\langle</tex>l2, p2<tex>\rangle</tex> = maxSuffix(pattern, <tex>\geqslant</tex>)
-      <tex>\langle</tex>l, p<tex>\rangle</tex> = (l1 <tex>\geqslant</tex> l2 ? <tex>\langle</tex>l1, p1<tex>\rangle</tex> : <tex>\langle</tex>l2, p2<tex>\rangle</tex>)
+      <tex>\langle</tex>l, p<tex>\rangle</tex> = l1 <tex>\geqslant</tex> l2 ? <tex>\langle</tex>l1, p1<tex>\rangle</tex> : <tex>\langle</tex>l2, p2<tex>\rangle</tex>
       <font color=green>//<tex>p</tex> <tex>-</tex> период <tex>x</tex>, <tex>l</tex> <tex>-</tex> такая критическая позиция, что <tex>l<p</tex></font>
-      '''int''' occurences = 0
+      '''vector<int> ''' occurences  <font color=green>// набор всех вхождений образца в текст</font>
       '''int''' pos = 0
       '''int''' memPrefix = 0
@@ Строка 58: / Строка 58: @@
                   j--
               '''if''' j <tex>\leqslant</tex> memPrefix
-                  occurences = pos
+                  occurences.pushBack(pos)
               pos = pos + p
               memPrefix = pattern.length - p
@@ Строка 64: / Строка 64: @@
 == Ценность алгоритма ==
 Двусторонний алгоритм отчасти похож на алгоритм Бойера-Мура (просмотр символов справа налево и сдвиг позиции при несовпадении на втором этапе), и в лучшем случае работает немногим медленнее его, а в худшем {{---}} значительно превосходит<ref>[http://monge.univ-mlv.fr/~mac/Articles-PDF/CP-1991-jacm.pdf Journal of the Association for Computing Machinery, Vol. 38, No, 1, July 1991] Оценки скорости работы</ref>, но главное отличие двустороннего алгоритма от алгоритмов Кнута-Морриса-Пратта и Бойера-Мура {{---}} константное количество затрачиваемой дополнительной памяти.
+Именно этот алгоритм (при выполнении ряда условий) используется в реализации поиска подстроки в glibc<ref>[https://github.com/bminor/glibc/blob/glibc-2.28/string/strstr.c#L88 Реализация функции strstr в glibc]</ref>.
 == См. также ==

Двусторонний алгоритм — различия между версиями

Текущая версия на 19:31, 4 сентября 2022

Содержание

Характерные черты

Описание алгоритма

Псевдокод

Ценность алгоритма

См. также

Примечания

Источники информации

Навигация

Персональные инструменты

Пространства имён

Варианты

Просмотры

Ещё

Поиск

Навигация

Инструменты