Алгоритм Колусси — различия между версиями
Kabanov (обсуждение | вклад) м (→Псевдокод) |
м (rollbackEdits.php mass rollback) |
||
| (не показано 6 промежуточных версий 5 участников) | |||
| Строка 3: | Строка 3: | ||
==Алгоритм== | ==Алгоритм== | ||
Алгоритм сравнивает символы шаблона <tex>x</tex> один за другим с символами исходной строки <tex>y</tex>. Для сдвигов шаблона относительно исходной строки применяются вспомогательные функции, описанные ниже. | Алгоритм сравнивает символы шаблона <tex>x</tex> один за другим с символами исходной строки <tex>y</tex>. Для сдвигов шаблона относительно исходной строки применяются вспомогательные функции, описанные ниже. | ||
| + | |||
| + | Пусть <tex>|y|=n</tex> и <tex>|x|=m</tex>. | ||
Обозначим за <tex>\mathrm{Kmp}</tex> {{---}} [[Префикс-функция|префикс-функцию]], но при этом она определена для <tex>x[0] \dots x[m-1]</tex> и имеет значение <tex>-1</tex> по умолчанию. | Обозначим за <tex>\mathrm{Kmp}</tex> {{---}} [[Префикс-функция|префикс-функцию]], но при этом она определена для <tex>x[0] \dots x[m-1]</tex> и имеет значение <tex>-1</tex> по умолчанию. | ||
| Строка 8: | Строка 10: | ||
Отметим, что нумерация символов строк и элементов массива у нас начинается с <tex>0</tex>. | Отметим, что нумерация символов строк и элементов массива у нас начинается с <tex>0</tex>. | ||
| − | Множество всех позиций шаблона разделим на два | + | Множество всех позиций шаблона разделим на два дизъюнктных множества. Тогда каждая попытка сравнения шаблона с исходной строкой после очередного сдвига состоит из двух случаев. |
{{Определение | {{Определение | ||
|definition= | |definition= | ||
| − | В первом случае сравнения выполняются слева направо с символами текста, выровненными с шаблоном в позиции, для которой значение функции <tex>\mathrm{Kmp}(i)</tex> строго больше <tex>-1</tex>. Такие позиции будем называть '''насыщенными''' (''noholes''). | + | В первом случае сравнения выполняются слева направо с символами текста, выровненными с шаблоном в позиции, для которой значение функции <tex>\mathrm{Kmp}(i)</tex> строго больше <tex>-1</tex>. Такие позиции будем называть '''насыщенными''' (англ. ''noholes''). |
}} | }} | ||
{{Определение | {{Определение | ||
|definition= | |definition= | ||
| − | Во втором случае будут производиться сравнения в оставшихся позициях справа налево. Такие позиции будем называть '''ненасыщенными''' (''holes''). | + | Во втором случае будут производиться сравнения в оставшихся позициях справа налево. Такие позиции будем называть '''ненасыщенными''' (англ. ''holes''). |
}} | }} | ||
| Строка 48: | Строка 50: | ||
{{Определение | {{Определение | ||
|definition= | |definition= | ||
| − | Обозначим за <tex>\mathrm{first}(u)</tex> | + | Обозначим за <tex>\mathrm{first}(u)</tex> наименьшее число <tex>v</tex> такое, что <tex>u \leqslant h[v]</tex>. |
}} | }} | ||
| − | Теперь рассмотрим 2 | + | Теперь рассмотрим 2 случая, возможных при очередной попытке сравнения шаблона с подстрокой из текста. Допустим, что шаблон <tex>x</tex> выровнен с подстрокой <tex>y[j \dots j+m-1]</tex>. |
=== Первый случай === | === Первый случай === | ||
| Строка 67: | Строка 69: | ||
Теперь рассмотрим ситуацию, когда <tex>x[h[k]]=y[j+h[k]]</tex> для <tex>0 \leqslant k < r</tex> и <tex>x[h[r]] \neq y[j+h[r]]</tex> для <tex>nd \leqslant r < m</tex>. | Теперь рассмотрим ситуацию, когда <tex>x[h[k]]=y[j+h[k]]</tex> для <tex>0 \leqslant k < r</tex> и <tex>x[h[r]] \neq y[j+h[r]]</tex> для <tex>nd \leqslant r < m</tex>. | ||
| − | Пусть <tex>j' = j + \mathrm{R_{min}}(h[r])</tex> | + | Пусть <tex>j' = j + \mathrm{R_{min}}(h[r])</tex>. |
| − | Тогда нет вхождений шаблона <tex>x</tex>, начиная с <tex>y[j \dots j']</tex> и <tex>x</tex> может быть сдвинут на <tex>\mathrm{R_{min}}(h[r])</tex>. | + | Тогда нет вхождений шаблона <tex>x</tex>, начиная с <tex>y[j \dots j']</tex> и <tex>x</tex> может быть сдвинут на <tex>\mathrm{R_{min}}(h[r])</tex> позиций вправо. |
Кроме того равенство <tex>x[0 \dots m-1-\mathrm{R_{min}}(h[r])]=y[j' \dots j+m-1]</tex> означает, что сравнения могут продолжены с символов <tex>x[h[\mathrm{first}(m-1-\mathrm{R_{min}}(h[r]))]]</tex> и <tex>y[j'+h[\mathrm{first}(m-1-\mathrm{R_{min}}(h[r]))]]</tex>. | Кроме того равенство <tex>x[0 \dots m-1-\mathrm{R_{min}}(h[r])]=y[j' \dots j+m-1]</tex> означает, что сравнения могут продолжены с символов <tex>x[h[\mathrm{first}(m-1-\mathrm{R_{min}}(h[r]))]]</tex> и <tex>y[j'+h[\mathrm{first}(m-1-\mathrm{R_{min}}(h[r]))]]</tex>. | ||
| Строка 104: | Строка 106: | ||
'''for''' k = 1 .. m | '''for''' k = 1 .. m | ||
'''int''' i = k | '''int''' i = k | ||
| − | '''while''' x[i] == x[i - k] | + | '''while''' i < m and x[i] == x[i - k] |
i++ | i++ | ||
hmax[k] = i | hmax[k] = i | ||
| − | return hmax | + | '''return''' hmax |
Явная реализация по определению, очевидно, работает за <tex>O(m^2)</tex> и требует <tex>O(m)</tex> памяти. | Явная реализация по определению, очевидно, работает за <tex>O(m^2)</tex> и требует <tex>O(m)</tex> памяти. | ||
| Строка 117: | Строка 119: | ||
'''int''' k = 1 | '''int''' k = 1 | ||
'''while''' k <= m | '''while''' k <= m | ||
| − | '''while''' x[i] == x[i - k] | + | '''while''' i < m and x[i] == x[i - k] |
| − | i++ | + | i++ |
hmax[k] = i | hmax[k] = i | ||
'''int''' q = k + 1 | '''int''' q = k + 1 | ||
| Строка 125: | Строка 127: | ||
q++ | q++ | ||
k = q | k = q | ||
| − | if k == i + 1 | + | '''if''' k == i + 1 |
i = k | i = k | ||
'''return''' hmax | '''return''' hmax | ||
| Строка 150: | Строка 152: | ||
'''else''' | '''else''' | ||
rmin[i] = 0 | rmin[i] = 0 | ||
| − | return rmin | + | '''return''' rmin |
Функция для построение массива <tex>\mathrm{shift}</tex>. | Функция для построение массива <tex>\mathrm{shift}</tex>. | ||
| Строка 177: | Строка 179: | ||
next[i] = nhd0[h[i] - kmin[h[i]]] | next[i] = nhd0[h[i] - kmin[h[i]]] | ||
'''for''' i = nd + 1 .. m - 1 | '''for''' i = nd + 1 .. m - 1 | ||
| − | + | next[i] = nhd0[m - rmin[h[i]]] | |
next[m] = nhd0[m - rmin[h[m - 1]]] | next[m] = nhd0[m - rmin[h[m - 1]]] | ||
'''return''' next | '''return''' next | ||
Основная функция алгоритма Колусси. | Основная функция алгоритма Колусси. | ||
| − | ''' | + | '''function''' colussi('''char'''[] x, '''char'''[] y): |
'''int''' n = length(y) | '''int''' n = length(y) | ||
'''int''' m = length(x) | '''int''' m = length(x) | ||
| Строка 233: | Строка 235: | ||
===Недостатки=== | ===Недостатки=== | ||
* Сложность реализации. | * Сложность реализации. | ||
| − | ==Источники== | + | |
| + | ==Источники информации== | ||
* COLUSSI L., 1991, Correctness and efficiency of the pattern matching algorithms, Information and Computation 95(2):225-251. | * COLUSSI L., 1991, Correctness and efficiency of the pattern matching algorithms, Information and Computation 95(2):225-251. | ||
* [http://www-igm.univ-mlv.fr/~lecroq/string/node10.html Colussi algorithm] | * [http://www-igm.univ-mlv.fr/~lecroq/string/node10.html Colussi algorithm] | ||
| Строка 240: | Строка 243: | ||
[[Категория: Дискретная математика и алгоритмы]] | [[Категория: Дискретная математика и алгоритмы]] | ||
[[Категория: Поиск подстроки в строке]] | [[Категория: Поиск подстроки в строке]] | ||
| + | [[Категория: Точный поиск]] | ||
Текущая версия на 19:42, 4 сентября 2022
Алгоритм, разработанный Ливио Колусси, профессором итальянского университета Padova, и опубликованный им в 1991 году, является продолжением работы над оптимизацией алгоритма Кнута-Морриса-Пратта. Предназначен для поиска одной подстроки в одном тексте.
Содержание
Алгоритм
Алгоритм сравнивает символы шаблона один за другим с символами исходной строки . Для сдвигов шаблона относительно исходной строки применяются вспомогательные функции, описанные ниже.
Пусть и .
Обозначим за — префикс-функцию, но при этом она определена для и имеет значение по умолчанию.
Отметим, что нумерация символов строк и элементов массива у нас начинается с .
Множество всех позиций шаблона разделим на два дизъюнктных множества. Тогда каждая попытка сравнения шаблона с исходной строкой после очередного сдвига состоит из двух случаев.
| Определение: |
| В первом случае сравнения выполняются слева направо с символами текста, выровненными с шаблоном в позиции, для которой значение функции строго больше . Такие позиции будем называть насыщенными (англ. noholes). |
| Определение: |
| Во втором случае будут производиться сравнения в оставшихся позициях справа налево. Такие позиции будем называть ненасыщенными (англ. holes). |
Такая стратегия предоставляет, как минимум, 2 преимущества:
- когда несовпадение появляется во время первого случая, после соответствующего сдвига уже нет необходимости делать проверки в насыщенных позициях, которые были проверены на предыдущем шаге.
- когда несовпадение появляется во время второго случая, это означает, что суффикс шаблона совпал с подстрокой исходной строки и после соответствующего сдвига префикс шаблона будет все ещё совпадать с этой подстрокой, поэтому нет необходимости в повторной проверке.
| Определение: |
| Обозначим за . Функция определена для всех позиций , у которых . |
Если , то периодичность шаблона заканчивается в позиции .
Очевидно, что для позиция :
- насыщенная, если ,
- ненасыщенная, в остальных случаях.
Обозначим за количество насыщенных позиций в шаблоне .
Массив содержит первыми элементами насыщенных позиций в возрастающем порядке и затем ненасыщенных в убывающем порядке, т.е.
- для всех насыщенная позиция и для .
- для всех ненасыщенная и для .
| Определение: |
| Обозначим за наименьший период шаблона большего, чем . Функция определена для всех позиций , у которых . |
| Определение: |
| Обозначим за наименьшее число такое, что . |
Теперь рассмотрим 2 случая, возможных при очередной попытке сравнения шаблона с подстрокой из текста. Допустим, что шаблон выровнен с подстрокой .
Первый случай
Рассмотрим случай, когда для и .
Пусть .
Тогда нет вхождений шаблона , начиная с и может быть сдвинут на позиций вправо.
Кроме того равенство для всех означает, что сравнения могут продолжены с символов и .
Второй случай
Теперь рассмотрим ситуацию, когда для и для .
Пусть .
Тогда нет вхождений шаблона , начиная с и может быть сдвинут на позиций вправо.
Кроме того равенство означает, что сравнения могут продолжены с символов и .
Предварительные вычисления
Для вычисления значений будем использовать вспомогательную функцию .
| Определение: |
Обозначим за функцию, для которой выполняется:
|
| Определение: |
| Обозначим за количество насыщенных позиций строго меньших . |
Теперь мы можем определить два функции и :
- и для всех ;
- и для всех ;
- и .
Таким образом, при возникновении несовпадения между и окно сравнения должно быть сдвинуто на и сравнения могут быть продолжены с позиции шаблона .
Псевдокод
Функция для построения массива .
Наивный вариант
int[] buildHmax(char[] x, int m):
int hmax[m + 1]
for k = 1 .. m
int i = k
while i < m and x[i] == x[i - k]
i++
hmax[k] = i
return hmax
Явная реализация по определению, очевидно, работает за и требует памяти.
Улучшенный вариант
int[] buildHmax(char[] x, int m):
int hmax[m + 1]
int i = 1
int k = 1
while k <= m
while i < m and x[i] == x[i - k]
i++
hmax[k] = i
int q = k + 1
while hmax[q - k] + k < i
hmax[q] = hmax[q - k] + k
q++
k = q
if k == i + 1
i = k
return hmax
На каждой итерации цикла увеличивается либо переменная , либо (или переменная , которая используется в конечном счете для обновления ). Поскольку и в начале и в конце алгоритма, количество итераций алгоритма не превосходит . Следовательно функция требует времени и памяти.
Функция для построения массива .
int[] buildKmin(int[] hmax, int m):
int kmin[m]
for i = m .. 1
if hmax[i] < m
kmin[hmax[i]] = i
return kmin
Функция для построения массива .
int[] buildRmin(int[] hmax, int[] kmin, int m):
int rmin[m]
int r = 0
for i = m - 1 .. 0
if hmax[i + 1] == m
// — первое число большее, чем и такое, что шаблон имеет период
r = i + 1
if kmin[i] == 0
rmin[i] = r
else
rmin[i] = 0
return rmin
Функция для построение массива .
int[] buildShift(int[] kmin, int[] rmin, int[] h, int nd, int m):
int shift[m + 1]
for i = 0 .. nd
shift[i] = kmin[h[i]]
for i = nd + 1 .. m - 1
shift[i] = rmin[h[i]]
shift[m] = rmin[0]
return shift
Функция для построения массива .
int[] buildNext(int[] kmin, int[] rmin, int[] h, int nd, int m):
// Вычисление массива
int nhd0[m]
int s = 0
for i = 0 .. m - 1
nhd0[i] = s
if kmin[i] > 0
++s
// Вычисление массива
int next[m + 1]
for i = 0 .. nd
next[i] = nhd0[h[i] - kmin[h[i]]]
for i = nd + 1 .. m - 1
next[i] = nhd0[m - rmin[h[i]]]
next[m] = nhd0[m - rmin[h[m - 1]]]
return next
Основная функция алгоритма Колусси.
function colussi(char[] x, char[] y):
int n = length(y)
int m = length(x)
// Предварительные вычисления
int[] hmax = buildHmax(x, m)
int[] kmin = buildKmin(hmax, m)
int[] rmin = buildRmin(hmax, kmin, m)
// Построение массива
int h[m]
int s = -1
int r = m
for i = 0 .. m - 1
if kmin[i] == 0
h[--r] = i
else
h[++s] = i
int nd = s
int[] shift = buildShift(kmin, rmin, h, nd, m)
int[] next = buildNext(kmin, rmin, h, nd, m)
// Поиск подстроки
int i = 0
int j = 0
int last = -1
while j <= n - m
while i < m and last < j + h[i] and x[h[i]] == y[j + h[i]]
++i
if i >= m or last >= j + h[i]
OUTPUT(j)
i = m
if i > nd
last = j + m - 1
j += shift[i]
i = next[i]
Асимптотики
- Фаза предварительных вычислений занимает времени и памяти;
- В худшем случае поиск требует сравнений.
где — длина исходного текста, — длина шаблона
Сравнение с другими алгоритмами
Достоинства
- Поиск выполняется за в отличие от алгоритма Кнута-Морриса-Пратта, поиск в котором занимается , что помогает уменьшить константу при .
- Фаза предобработки выполняется за в отличие от алгоритма Бойера-Мура, где в наилучшем случае можно получить время , что плохо при больших алфавитах.
Недостатки
- Сложность реализации.
Источники информации
- COLUSSI L., 1991, Correctness and efficiency of the pattern matching algorithms, Information and Computation 95(2):225-251.
- Colussi algorithm
- Colussi.ppt