Алгоритм МакКрейта
НЕТ ВОЙНЕ |
24 февраля 2022 года российское руководство во главе с Владимиром Путиным развязало агрессивную войну против Украины. В глазах всего мира это военное преступление совершено от лица всей страны, всех россиян. Будучи гражданами Российской Федерации, мы против своей воли оказались ответственными за нарушение международного права, военное вторжение и массовую гибель людей. Чудовищность совершенного преступления не оставляет возможности промолчать или ограничиться пассивным несогласием. Мы убеждены в абсолютной ценности человеческой жизни, в незыблемости прав и свобод личности. Режим Путина — угроза этим ценностям. Наша задача — обьединить все силы для сопротивления ей. Эту войну начали не россияне, а обезумевший диктатор. И наш гражданский долг — сделать всё, чтобы её остановить. Антивоенный комитет России |
Распространяйте правду о текущих событиях, оберегайте от пропаганды своих друзей и близких. Изменение общественного восприятия войны - ключ к её завершению. |
meduza.io, Популярная политика, Новая газета, zona.media, Майкл Наки. |
Алгоритм МакКрейта (англ. McCreight's algorithm) — алгоритм построения суффиксного дерева для заданной строки за линейное время. Отличается от алгоритма Укконена тем, что добавляет суффиксы в порядке убывания длины.
Содержание
Историческая справка
Первым оптимальным по времени был алгоритм, предложенный Вайнером в 1973 году. Идея алгоритма была в нахождении первых символов суффикса, которые находились в уже построенном дереве. Суффиксы просматривались от самого короткого к самому длинному, а для быстрого поиска использовались по два массива размера алфавита на каждую вершину, что затрудняло как понимание алгоритма, так и его реализацию и эффективность, особенно в плане занимаемой памяти. МакКрейт в 1976 году предложил свой алоритм[1], в котором порядок добавления суффиксов заменен на обратный, а для быстрого вычисления места, откуда нужно продолжить построение нового суффикса, достаточно суффиксной ссылки в каждой вершине. В 1995 году Укконен представил свою версию алгоритма[2], которая считается наиболее простой для понимания, а также, в отличие от алгоритмов Вейнера и МакКрейта, является online алгоритмом, способным строить неявное суффиксное дерево по мере прочтения строки, а затем превратить его в настоящее.
Теоретическое обоснование
Рассмотрим строку наименьшего общего предка на этой глубине. Будем рассматривать суффиксы в порядке убывания длины, тогда имеет смысл узнавать наибольшее с новым суффиксом среди всех суффиксов, добавленных раньше. Обозначим как — максимальный префикс и среди всех .
длины , которая заканчивается специальным символом, не встречающимся больше в строке. Заметим, что если два суффикса имеют (largest common prefix) общих символов, то в построенном суффиксном дереве они будут иметьПусть мы знаем
и место в дереве, которое ему соответствует. Если позиция находится на ребре, разрежем его, а потом добавим новую вершину. Считать по определению было бы очень затруднительно, но существует способ значительно сократить вычисления.Лемма: |
Пусть , тогда — префикс . |
Доказательство: |
|
Если нам известны суффиксные ссылки
для каждой вершины , мы можем быстро перейти от позиции к её суффиксу и продолжить сравнение символов оттуда. Если бы новая позиция всегда оказывалась существующей вершиной построенного дерева, этот алгоритм бы уже работал, но в реальности можно оказаться на середине ребра, для которой суффиксная ссылка неизвестна. Для нахождения её суффиксной ссылки на следующей итерации мы сначала перейдем к предку, пройдем по суффиксной ссылке, а уже затем будем продолжать сравнение.Алгоритм
Для удобства реализации вместе с корнем
создадим вспомогательную вершину , обладающую свойствами:- Для любого символа из вершины есть ребро в .
Будем поддерживать инвариант:
- Для всех вершин, кроме, возможно, последней добавленной , известны суффиксные ссылки.
- Суффиксная ссылка всегда ведет в вершину, а не в середину ребра.
При добавлении каждого следующего суффикса будем выполнять следующие шаги:
- Если суффиксная ссылка
- Поднимемся вверх к её предку;
- Пройдем по суффиксной ссылке;
- Спустимся вниз на столько символов, сколько мы прошли вверх к предку (fast scanning).
- Если мы оказались посередине ребра, разрежем его и добавим вершину.
- Установим суффиксную ссылку для
не определена:
- Иначе просто пройдем по суффиксной ссылке.
- Будем идти по дереву вниз, пока либо не будет перехода по символу, либо очередной символ на ребре не совпадет с символом нового суффикса (slow scanning)
- Добавим ребро/разрежем существующее, запомним новую позицию и добавим оставшуюся часть суффикса в качестве листа.
Утверждение: |
Инвариант алгоритма сохраняется |
Инвариант мог бы нарушиться только в случае, если бы не существовало вершины в суффиксной ссылке для Покажем, что это невозможно. Рассмотрим, что значит, что , но мы продолжили бы сканирование по ребру дальше и получили две вершины с неопределенными суффиксными ссылками. остановилась посередине ребра. Это означает, что все суффиксы , которые дошли до этого места, имеют совпадающие следующие символы, по определению отличающиеся от символа суффикса . Тогда и должен отличаться в этом символе, значит . |
Псевдокод
В вершинах дерева
будем хранить следующую информацию:- — предок
- — метка подстроки на ребре от предка
- — длина ребра до предка
- — глубина вершины в символах
- — суффиксная ссылка
- — массив детей
Конструктор будет иметь вид Node(Node parent, int start, int end, int depth)
.
Пусть глобально известна строка со специальным символом на конце, её длина и используемый алфавит .
Node buildSuffixTree():
superRoot = Node(null, 0, -1, 0)
superRoot.suf = superRoot
root = Node(superRoot, 0, -1, 0)
root.suf = superRoot
for c in
superRoot.children[c] = root
head = root
for i = 1 to n
head = addSuffix(head, i)
return root
Node addSuffix(Node head, int start): newHead = slowScan(fastScan(head), start) добавим новый лист к newHead return newHead
Node fastScan(Node head): if head — корень return head if не существует суффиксной ссылки head skipped = head.length // Сколько символов нам осталось пропустить без проверки curPos = head.start // Текущая позиция на ребре, нужна для создания ребра по соответствующему символу if head совпадает с корнем skipped-- curPos++ curNode = head.parent.suf // Текущая вершина while непройденная длина больше длины ребра curNode = curNode.children[s[curPos]] skipped -= curNode.length curPos += curNode.length if остались непройденные символы разделим ребро и запишем новую вершину в curNode head.suf = curNode return head.suf
Node slowScan(Node node, int start): curNode = node // Текущая вершина curPos = start + node.depth // Текущий символ суффикса while существует ребро по символу curPos child = curNode.children[s[curPos]] // Ребенок по символу суффикса edgePos = 0 // Текущая позиция на ребре while символы на ребре совпадают с суффиксом curPos++ edgePos++ if ребро пройдено до конца curNode = child else разделим ребро в месте несовпадения, запишем в curNode и выйдем из цикла return curNode
Асимптотическая оценка
В приведенном алгоритме используется константное число операций на добавление одного суффикса, не считая slow scanning и fast scanning.
Slow scanning делает
операций, что суммарно дает операций.Fast scanning работает с целыми рёбрами, поэтому будем использовать в качестве потенциала глубину в вершинах. Из структуры суффиксного дерева мы знаем, что суффиксная ссылка может уменьшить глубину вершины не более, чем на , так что мы на каждой итерации поднимаемся не более, чем на — один раз к предку, а потом по суффиксной ссылке, что составляет за весь алгоритм. Соответственно, спустимся мы тоже суммарно раз, так как и максимальная глубина составляет .
Итоговая асимптотика алгоритма —
.Сравнение с другими алгоритмами
В сравнении с алгоритмом Вайнера:
- Преимущества: каждая вершина хранит только суффиксную ссылку, а не массивы размера алфавита.
- Недостатки: нет.
В сравнении с алгоритмом Укконена:
- Преимущества: мы строим суффиксное дерево в явной форме, что может облегчить понимание алгоритма.
- Недостатки: является offline алгоритмом, то есть требует для начала работы всю строку целиком.