Алгоритм Колусси — различия между версиями

Версия 16:54, 13 июня 2014

Алгоритм, разработанный Ливио Колусси, профессором итальянского университета Padova, и опубликованный им в 1991 году, является продолжением работы над оптимизацией алгоритма Кнута-Морриса-Пратта. Предназначен для поиска одной подстроки в нескольких текстах.

Содержание

1 Алгоритм
2 Первая случай
3 Вторая случай
4 Предварительные вычисления
5 Псевдокод
6 Асимптотики
7 Сравнение с другими алгоритмами
- 7.1 Достоинства
- 7.2 Недостатки
8 Источники

Алгоритм

Алгоритм сравнивает символы шаблона [math]x[/math] один за другим с символами исходной строки [math]y[/math]. Для сдвигов шаблона относительно исходной строки применяются вспомогательные функции, описанные ниже.

Обозначим за [math]\mathrm{Kmp}[/math] — префикс-функцию, но при этом она определена для [math]x[0] \dots x[m-1][/math] и имеет значение [math]-1[/math] по умолчанию.

Отметим, что нумерация символов строк и элементов массива у нас начинается с [math]0[/math].

Множество всех позиций шаблона разделим на два (дизъюнктных) непересекающихся множества. Тогда каждая попытка сравнения шаблона с исходной строкой после очередного сдвига состоит из двух фаз.

Определение:

В первой фазе сравнения выполняются слева направо с символами текста, выровненными с шаблоном в позиции, для которой значение функции строго больше . Такие позиции будем называть насыщенными (noholes).

Определение:

Вторая фаза состоит в сравнении в оставшихся позициях справа налево. Такие позиции будем называть ненасыщенными (holes).

Такая стратегия предоставляет, как минимум, 2 преимущества:

когда несовпадение появляется во время первой фазы, после соответствующего сдвига уже нет необходимости делать проверки в насыщенных позициях, которые были проверены на предыдущем шаге.
когда несовпадение появляется во время второй фазы, это означает, что суффикс шаблона совпал с подстрокой исходной строки [math]y[/math] и после соответствующего сдвига префикс шаблона будет все ещё совпадать с этой подстрокой, поэтому нет необходимости в повторной проверке.

Определение:

Обозначим за . Функция определена для всех позиций , у которых .

Если [math]\mathrm{K_{min}}(i) \neq 0[/math], то периодичность шаблона [math]x[/math] заканчивается в позиции [math]i[/math].

Очевидно, что для [math]0 \lt i \lt m[/math] позиция [math]i[/math]:

насыщенная, если ,
ненасыщенная, в остальных случаях.

Обозначим за [math]nd+1[/math] количество насыщенных позиций в шаблоне [math]x[/math].

Массив [math]h[/math] содержит первыми элементами [math]nd+1[/math] насыщенных позиций в возрастающем порядке и затем [math]m-nd-1[/math] ненасыщенных в убывающем порядке, т.е.

для всех [math]0 \leqslant i \leqslant nd[/math] [math]h[i][/math] насыщенная позиция и [math]h[i] \lt h[i+1][/math] для [math]0 \leqslant i \lt nd[/math].
для всех [math]nd \lt i \lt m[/math] [math]h[i][/math] ненасыщенная и [math]h[i] \gt h[i+1][/math] для [math]nd \lt i \lt m-1[/math].

Определение:

Обозначим за наименьший период шаблона большего, чем . Функция определена для всех позиций , у которых .

Определение:

Обозначим за наименьший число такое, что .

Теперь рассмотрим 2 случаях, возможных при очередной попытке сравнения шаблона с подстрокой из текста. Допустим, что шаблон [math]x[/math] выровнен с подстрокой [math]y[j \dots j+m-1][/math].

Первая случай

Рассмотрим случай, когда [math]x[h[k]]=y[j+h[k]][/math] для и [math]x[h[r]] \neq y[j+h[r]][/math].

Пусть .

Тогда нет вхождений шаблона [math]x[/math], начиная с [math]y[j \dots j'][/math] и [math]x[/math] может быть сдвинут на [math]\mathrm{K_{min}}(h[r])[/math] позиций вправо.

Кроме того [math]x[h[k]]=y[j’+h[k]][/math] для означает, что сравнения могут продолжены с и .

Вторая случай

Теперь рассмотрим ситуацию, когда [math]x[h[k]]=y[j+h[k]][/math] для [math]0 \leqslant k \lt r[/math] и [math]x[h[r]] \neq y[j+h[r]][/math] для [math]nd \leqslant r \lt m[/math].

Пусть позиций вправо.

Тогда нет вхождений шаблона [math]x[/math], начиная с [math]y[j \dots j'][/math] и [math]x[/math] может быть сдвинут на [math]\mathrm{R_{min}}(h[r])[/math].

Кроме того означает, что сравнения могут продолжены с и .

Предварительные вычисления

Для вычисления значений [math]\mathrm{K_{min}}[/math] будем использовать вспомогательную функцию [math]\mathrm{H_{max}}[/math].

Определение:

Обозначим за функцию, для которой выполняется:

,
.

Определение:

Обозначим за количество насыщенных позиций строго меньших .

Теперь мы можем определить два функции [math]shift[/math] и [math]next[/math]:

и для всех [math]i : i \lt nd[/math];
и для всех [math]i : nd \leqslant i \lt m[/math];
и .

Таким образом, при возникновении несовпадения между [math]x[h[r]][/math] и [math]y[j+h[r]][/math] окно сравнения должно быть сдвинуто на [math]shift(r)[/math] и сравнения могут быть продолжены с позиции h[next[r]] шаблона [math]x[/math].

Псевдокод

Наивный вариант

  int[] buildHmax(char[] x, int m):
     int hmax[m + 1]
     for k = 1 .. m
        int i = k
        while x[i] == x[i - k]
           i++
        hmax[k] = i
     return hmax

Явная реализация по определению, очевидно, работает за [math]O(m^2)[/math] и требует [math]O(m)[/math] памяти.

Улучшенный вариант

  int[] buildHmax(char[] x, int m):
     int hmax[m + 1]
     int i = 1
     int k = 1
     while k <= m
        while x[i] == x[i - k]
           i++;
        hmax[k] = i
        int q = k + 1
        while hmax[q - k] + k < i
           hmax[q] = hmax[q - k] + k
           q++
        k = q
        if k == i + 1
           i = k
     return hmax

На каждой итерации цикла увеличивается либо переменная [math]i[/math], либо [math]k[/math] (или переменная [math]q[/math], которая используется в конечном счете для обновления [math]k[/math]). Поскольку [math]i = 1[/math] и [math]k = 1[/math] в начале и [math]i \lt k = m + 1[/math] в конце алгоритма, количество итераций алгоритма не превосходит [math]2 \cdot m[/math]. Следовательно функция требует [math]O(m)[/math] времени и памяти.

Функция для построения массива [math]\mathrm{K_{min}}[/math].

  int[] buildKmin(int[] hmax, int m)
     int kmin[m]
     for i = m .. 1
        if hmax[i] < m
           kmin[hmax[i]] = i
     return kmin

Функция для построения массива [math]\mathrm{R_{min}}[/math].

  int[] buildRmin(int[] hmax, int[] kmin, int m)
     int rmin[m]
     int r = 0
     for i = m - 1 .. 0
        if hmax[i + 1] == m
           // [math]r[/math] — первое число большее, чем [math]i[/math] и такое, что шаблон имеет период [math]r[/math]
           r = i + 1
        if kmin[i] == 0
           rmin[i] = r
        else
           rmin[i] = 0
     return rmin

Функция для построение массива [math]\mathrm{Shift}[/math].

  int[] buildShift(int[] kmin, int[] rmin, int[] h, int nd, int m)
     int shift[m + 1]
     for i = 0 .. nd
        shift[i] = kmin[h[i]]
     for i = nd + 1 .. m - 1
        shift[i] = rmin[h[i]]
     shift[m] = rmin[0]
     return shift

Функция для построения массива [math]\mathrm{Next}[/math].

Асимптотики

Фаза предварительных вычислений занимает [math]O(m)[/math] времени и памяти;
В худшем случае поиск требует [math]O(n)[/math] сравнений.

где [math]n[/math] — длина исходного текста, [math]m[/math] — длина шаблона

Сравнение с другими алгоритмами

Достоинства

Поиск выполняется за [math]O(n)[/math] в отличие от алгоритма Кнута-Морриса-Пратта, поиск в котором занимается [math]O(n+m)[/math], что помогает уменьшить константу при [math]m \sim n[/math].
Фаза предобработки выполняется за [math]O(m)[/math] в отличие от алгоритма Бойера-Мура, где в наилучшем случае можно получить время [math]O(n+|\Sigma|)[/math], что плохо при больших алфавитах.

Недостатки

Сложность реализации.

Источники

COLUSSI L., 1991, Correctness and efficiency of the pattern matching algorithms, Information and Computation 95(2):225-251.
Colussi algorithm
Colussi.ppt

@@ Строка 1: / Строка 1: @@
+Алгоритм, разработанный Ливио Колусси, профессором итальянского университета Padova, и опубликованный им в 1991 году, является продолжением работы над оптимизацией [[Алгоритм Кнута-Морриса-Пратта|алгоритма Кнута-Морриса-Пратта]]. Предназначен для поиска одной подстроки в нескольких текстах.
 ==Алгоритм==
+Алгоритм сравнивает символы шаблона <tex>x</tex> один за другим с символами исходной строки <tex>y</tex>. Для сдвигов шаблона относительно исходной строки применяются вспомогательные функции, описанные ниже.
+Обозначим за <tex>\mathrm{Kmp}</tex> {{---}} [[Префикс-функция|префикс-функцию]], но при этом она определена для <tex>x[0] \dots x[m-1]</tex> и имеет значение <tex>-1</tex> по умолчанию.
 Отметим, что нумерация символов строк и элементов массива у нас начинается с <tex>0</tex>.
-Обозначим за <tex>Kmp</tex> {{---}} [[Префикс-функция|префикс-функцию]], но при этом она определена для <tex>x[0] \dots x[m-1]</tex> и имеет значение <tex>-1</tex> по умолчанию.
+Множество всех позиций шаблона разделим на два (дизъюнктных) непересекающихся множества. Тогда каждая попытка сравнения шаблона с исходной строкой после очередного сдвига состоит из двух фаз.
-Множество всех позиций шаблона разделим на два непересекающихся множества. Тогда каждая попытка сравнения шаблона с исходной строкой состоит из двух фаз.
 {{Определение
@@ Строка 18: / Строка 22: @@
 Такая стратегия предоставляет, как минимум, 2 преимущества:
 * когда несовпадение появляется во время первой фазы, после соответствующего сдвига уже нет необходимости делать проверки в насыщенных позициях, которые были проверены на предыдущем шаге.
-* когда несовпадение появляется во время второй фазы, это означает, что суффикс шаблона совпал с периодом (''factor'') строки, после соответствующего сдвига префикс шаблона будет все ещё совпадать с периодом текста, поэтому нет необходимости в повторной проверке.
+* когда несовпадение появляется во время второй фазы, это означает, что суффикс шаблона совпал с подстрокой исходной строки <tex>y</tex> и после соответствующего сдвига префикс шаблона будет все ещё совпадать с этой подстрокой, поэтому нет необходимости в повторной проверке.
 {{Определение
 |definition=
-Обозначим за <tex>\mathrm{K_{min}}(i) =  \min\{k : \ x[0 \dots i-1-k]=x[d \dots i-1]\ and\ x[i-k] \neq x[i]\}</tex>. Функция <tex>\mathrm{K_{min}}</tex> определена для всех позиций <tex>i</tex>, у которых <tex>Kmp(i) \neq -1</tex>.
+Обозначим за <tex>\mathrm{K_{min}}(i) =  \min\{k : \ x[0 \dots i-1-k]=x[d \dots i-1]\ and\ x[i-k] \neq x[i]\}</tex>. Функция <tex>\mathrm{K_{min}}</tex> определена для всех позиций <tex>i</tex>, у которых <tex>\mathrm{Kmp}(i) \neq -1</tex>.
 }}
@@ Строка 28: / Строка 32: @@
 Очевидно, что для <tex>0 < i < m</tex> позиция <tex>i</tex>:
-* насыщенная, если <tex>\mathrm{K_{min}}(i-1) \neq 0</tex>
+* насыщенная, если <tex>\mathrm{K_{min}}(i-1) \neq 0</tex>,
-* ненасыщенная, иначе
+* ненасыщенная, в остальных случаях.
 Обозначим за <tex>nd+1</tex> количество насыщенных позиций в шаблоне <tex>x</tex>.
@@ Строка 39: / Строка 43: @@
 {{Определение
 |definition=
-Обозначим за <tex>\mathrm{R_{min}}(i)</tex> наименьший период <tex>r</tex> шаблона <tex>x</tex> большего, чем <tex>i</tex>. Функция <tex>\mathrm{R_{min}}</tex> определена для всех позиций <tex>i</tex>, у которых <tex>Kmp(i) = -1</tex>.
+Обозначим за <tex>\mathrm{R_{min}}(i)</tex> наименьший период <tex>r</tex> шаблона <tex>x</tex> большего, чем <tex>i</tex>. Функция <tex>\mathrm{R_{min}}</tex> определена для всех позиций <tex>i</tex>, у которых <tex>\mathrm{Kmp}(i) = -1</tex>.
 }}
@@ Строка 47: / Строка 51: @@
 }}
-Допустим, что шаблон <tex>x</tex> выровнен с <tex>y[j \dots j+m-1]</tex>.
+Теперь рассмотрим 2 случаях, возможных при очередной попытке сравнения шаблона с подстрокой из текста. Допустим, что шаблон <tex>x</tex> выровнен с подстрокой <tex>y[j \dots j+m-1]</tex>.
-== Первая фаза ==
+== Первая случай ==
 Рассмотрим случай, когда <tex>x[h[k]]=y[j+h[k]]</tex> для <tex>0 \leqslant k < r < nd</tex> и <tex>x[h[r]] \neq y[j+h[r]]</tex>.
@@ Строка 58: / Строка 62: @@
 Кроме того <tex>x[h[k]]=y[j’+h[k]]</tex> для <tex>0 \leqslant k < \mathrm{first}(h[r]-\mathrm{K_{min}}(h[r]))</tex> означает, что сравнения могут продолжены с <tex>x[h[\mathrm{first}(h[r] - \mathrm{K_{min}}(h[r]))]]</tex> и <tex>y[j'+h[\mathrm{first}(h[r]-\mathrm{K_{min}}(h[r]))]]</tex>.
-== Вторая фаза ==
+== Вторая случай ==
 Теперь рассмотрим ситуацию, когда <tex>x[h[k]]=y[j+h[k]]</tex> для <tex>0 \leqslant k < r</tex> и <tex>x[h[r]] \neq y[j+h[r]]</tex> для <tex>nd \leqslant r < m</tex>.

Алгоритм Колусси — различия между версиями

Версия 16:54, 13 июня 2014

Содержание

Алгоритм

Первая случай

Вторая случай

Предварительные вычисления

Псевдокод

Асимптотики

Сравнение с другими алгоритмами

Достоинства

Недостатки

Источники

Навигация

Персональные инструменты

Пространства имён

Варианты

Просмотры

Ещё

Поиск

Навигация

Инструменты