Алгоритм МакКрейта — различия между версиями
Genyaz (обсуждение | вклад) (Добавлен псевдокод) |
Genyaz (обсуждение | вклад) (Исправлен псевдокод) |
||
Строка 44: | Строка 44: | ||
|id=proposal_invariant | |id=proposal_invariant | ||
|statement=Инвариант алгоритма сохраняется | |statement=Инвариант алгоритма сохраняется | ||
− | |proof=Инвариант мог бы нарушиться только в случае, если бы не существовало вершины в суффиксной ссылке для <tex>head_{i-1}</tex>, но мы продолжили бы сканирование по ребру дальше и получили две вершины <tex>head_{i-1}.suf, head_i</tex> с неопределенными суффиксными ссылками. | + | |proof=Инвариант мог бы нарушиться только в случае, если бы не существовало вершины в суффиксной ссылке для <tex>head_{i-1}</tex>, но мы продолжили бы сканирование по ребру дальше и получили две вершины <tex>head_{i-1}.suf,\ head_i</tex> с неопределенными суффиксными ссылками. |
− | Покажем, что это невозможно. Рассмотрим, что значит, что <tex>head_{i-1}.suf</tex> остановилась посередине ребра. Это означает, что все суффиксы <tex>s[j..n], j < i - 1</tex>, которые дошли до этого места, имеют совпадающие следующие символы, по определению <tex>head_{i-1}</tex> отличающиеся от символа суффикса <tex>s[i - 1..n]</tex>. Тогда и <tex>s[i..n]</tex> должен отличаться в этом символе, значит <tex>head_i = head_{i-1}.suf</tex>. | + | Покажем, что это невозможно. Рассмотрим, что значит, что <tex>head_{i-1}.suf</tex> остановилась посередине ребра. Это означает, что все суффиксы <tex>s[j..n],\ j < i - 1</tex>, которые дошли до этого места, имеют совпадающие следующие символы, по определению <tex>head_{i-1}</tex> отличающиеся от символа суффикса <tex>s[i - 1..n]</tex>. Тогда и <tex>s[i..n]</tex> должен отличаться в этом символе, значит <tex>head_i = head_{i-1}.suf</tex>. |
}} | }} | ||
== Псевдокод == | == Псевдокод == | ||
В вершинах дерева <tex>Node</tex> будем хранить следующую информацию: | В вершинах дерева <tex>Node</tex> будем хранить следующую информацию: | ||
− | * <tex>parent</tex> - предок | + | * <tex>parent</tex> {{---}} предок |
− | * <tex>start, end</tex> - позиции строки, соответствующие ребру до предка | + | * <tex>start,\ end</tex> {{---}} позиции строки, соответствующие ребру до предка <tex>s[start, end]</tex> |
− | * <tex>length</tex> - длина ребра до предка | + | * <tex>length</tex> {{---}} длина ребра до предка |
− | * <tex>depth</tex> - глубина вершины в символах | + | * <tex>depth</tex> {{---}} глубина вершины в символах |
− | * <tex>suf</tex> - суффиксная ссылка | + | * <tex>suf</tex> {{---}} суффиксная ссылка |
− | * <tex>children[]</tex> - массив детей | + | * <tex>children[]</tex> {{---}} массив детей |
− | Конструктор будет иметь вид <code>Node(Node parent, '''int''' start, '''int''' end, '''int''' depth)</code> | + | Конструктор будет иметь вид <code>Node(Node parent, '''int''' start, '''int''' end, '''int''' depth)</code>. |
+ | Пусть глобально известна строка <tex>s</tex> со специальным символом на конце, ее длина <tex>n</tex> и используемый алфавит <tex>\Sigma</tex>. | ||
<code> | <code> | ||
− | + | Node buildSuffixTree(): | |
− | |||
− | |||
− | Node buildSuffixTree() | ||
superRoot = Node('''null''', 0, -1, 0) | superRoot = Node('''null''', 0, -1, 0) | ||
+ | superRoot.suf = superRoot | ||
root = Node(superRoot, 0, -1, 0) | root = Node(superRoot, 0, -1, 0) | ||
root.suf = superRoot | root.suf = superRoot | ||
− | '''for''' c '''in''' <tex>\Sigma</tex> | + | '''for''' c '''in''' <tex>\Sigma</tex>: |
superRoot.children[c] = root | superRoot.children[c] = root | ||
head = root | head = root | ||
− | '''for''' i = 1 '''to''' n | + | '''for''' i = 1 '''to''' n: |
head = addSuffix(head, i) | head = addSuffix(head, i) | ||
'''return''' root | '''return''' root | ||
− | Node addSuffix(Node head, '''int''' start) | + | Node addSuffix(Node head, '''int''' start): |
newHead = slowScan(fastScan(head), start) | newHead = slowScan(fastScan(head), start) | ||
newLeaf = Node(newHead, start + newHead.depth, n, n - start + 1) | newLeaf = Node(newHead, start + newHead.depth, n, n - start + 1) | ||
Строка 80: | Строка 79: | ||
'''return''' newHead | '''return''' newHead | ||
− | Node fastScan(Node head) | + | Node fastScan(Node head): |
− | '''if''' head.suf == '''null''' | + | '''if''' head.depth == 0: |
+ | '''return''' head | ||
+ | '''if''' head.suf == '''null''': | ||
skipped = head.length | skipped = head.length | ||
curPos = head.start | curPos = head.start | ||
+ | '''if''' skipped > 0 '''and''' head.parent.depth == 0: | ||
+ | skipped-- | ||
+ | curPos++ | ||
curNode = head.parent.suf | curNode = head.parent.suf | ||
− | '''while''' curNode.children[s[curPos]].length > | + | '''while''' curNode.children[s[curPos]].length <tex>\leqslant</tex> skipped: |
curNode = curNode.children[s[curPos]] | curNode = curNode.children[s[curPos]] | ||
skipped -= curNode.length | skipped -= curNode.length | ||
curPos += curNode.length | curPos += curNode.length | ||
− | '''if''' skipped > 0 | + | '''if''' skipped > 0: |
newNode = split(curNode, curNode.children[s[curPos]], skipped) | newNode = split(curNode, curNode.children[s[curPos]], skipped) | ||
− | + | head.suf = newNode | |
'''return''' head.suf | '''return''' head.suf | ||
− | Node split(Node parent, Node child, '''int''' edgeLength) | + | Node split(Node parent, Node child, '''int''' edgeLength): |
− | + | inserted = Node(parent, child.start, child.start + edgeLenth - 1, parent.depth + edgeLength) | |
− | parent.children[s[child.start]] = | + | parent.children[s[child.start]] = inserted |
child.start += edgeLength | child.start += edgeLength | ||
child.length -= edgeLength | child.length -= edgeLength | ||
− | + | inserted.children[s[child.start]] = child | |
− | child.parent = | + | child.parent = inserted |
− | '''return''' | + | '''return''' inserted |
− | Node slowScan(Node node, '''int''' start) | + | Node slowScan(Node node, '''int''' start): |
curNode = node | curNode = node | ||
curPos = start + node.depth | curPos = start + node.depth | ||
− | '''while | + | '''while''' curNode.children[s[curPos]] != null: |
− | |||
− | |||
child = curNode.children[s[curPos]] | child = curNode.children[s[curPos]] | ||
edgePos = 0 | edgePos = 0 | ||
− | '''while''' child.start + edgePos < | + | '''while''' child.start + edgePos <tex>\leqslant</tex> child.end '''and''' s[child.start + edgePos] == s[curPos]: |
curPos++ | curPos++ | ||
edgePos++ | edgePos++ | ||
− | '''if''' child.start + edgePos > child.end | + | '''if''' child.start + edgePos > child.end: |
curNode = child | curNode = child | ||
− | '''else''' | + | '''else''': |
curNode = split(curNode, child, edgePos) | curNode = split(curNode, child, edgePos) | ||
'''break''' | '''break''' | ||
Строка 144: | Строка 146: | ||
* [http://www.academia.edu/3146231/Algorithms_on_strings_trees_and_sequences_computer_science_and_computational_biology ''Gusfield, Dan'' , Algorithms on Strings, Trees and Sequences: Computer Science and Computational Biology // Cambridge University Press, {{---}} 1999. {{---}} ISBN: 0-521-58519-8] | * [http://www.academia.edu/3146231/Algorithms_on_strings_trees_and_sequences_computer_science_and_computational_biology ''Gusfield, Dan'' , Algorithms on Strings, Trees and Sequences: Computer Science and Computational Biology // Cambridge University Press, {{---}} 1999. {{---}} ISBN: 0-521-58519-8] | ||
* [http://users-cs.au.dk/cstorm/courses/StrAlg_f12/slides/suffix-tree-construction.pdf ''C. N. Storm'', McCreight's suffix tree construction algorithm] | * [http://users-cs.au.dk/cstorm/courses/StrAlg_f12/slides/suffix-tree-construction.pdf ''C. N. Storm'', McCreight's suffix tree construction algorithm] | ||
+ | * [http://pastie.org/9146207 Реализация на языке Java] | ||
== См. также == | == См. также == |
Версия 19:34, 6 мая 2014
Алгоритм МакКрейта — алгоритм построения суффиксного дерева для заданной строки за линейное время. Отличается от алгоритма Укконена тем, что добавляет суффиксы в порядке убывания длины.
Содержание
Историческая справка
Первым оптимальным по времени был алгоритм, предложенный Вайнером в 1973 году. Идея алгоритма была в нахождении первых символов суффикса, которые находились в уже построенном дереве. Суффиксы просматривались от самого короткого к самому длинному, а для быстрого поиска использовались по два массива размера алфавита на каждую вершину, что затрудняло как понимание алгоритма, так и его реализацию и эффективность, особенно в плане занимаемой памяти. МакКрейт в 1976 году предложил свой алгоритм, в котором порядок добавления суффиксов заменен на обратный, а для быстрого вычисления места, откуда нужно продолжить построение нового суффикса, достаточно суффиксной ссылки в каждой вершине. В 1995 году Укконен представил свою версию алгоритма, которая считается наиболее простой для понимания, а также, в отличие от алгоритмов Вейнера и МакКрейта, является online алгоритмом, способным строить неявное суффиксное дерево по мере прочтения строки, а затем превратить его в настоящее.
Теоретическое обоснование
Рассмотрим строку наименьшего общего предка на этой глубине. Будем рассматривать суффиксы в порядке убывания длины, тогда имеет смысл узнавать наибольшее с новым суффиксом среди всех суффиксов, добавленных раньше. Обозначим как — максимальный префикс и среди всех .
длины , которая заканчивается специальным символом, не встречающимся больше в строке. Заметим, что если два суффикса имеют (largest common prefix) общих символов, то в построенном суффиксном дереве они будут иметьПусть мы знаем
и место в дереве, которое ему соответствует. Если позиция находится на ребре, разрежем его, а потом добавим новую вершину. Считать по определению было бы очень затруднительно, но существует способ значительно сократить вычисления.Лемма: |
Пусть , тогда — префикс . |
Доказательство: |
|
Если нам известны суффиксные ссылки
для каждой вершины , мы можем быстро перейти от позиции к ее суффиксу и продолжить сравнение символов оттуда. Если бы новая позиция всегда оказывалась существующей вершиной построенного дерева, этот алгоритм бы уже работал, но в реальности можно оказаться на середине ребра, для которой суффиксная ссылка неизвестна. Для нахождения ее суффиксной ссылки на следующей итерации мы сначала перейдем к предку, пройдем по суффиксной ссылке, а уже затем будем продолжать сравнение.Алгоритм
Для удобства реализации вместе с корнем
создадим вспомогательную вершину , обладающую свойствами:- Для любого символа из вершины есть ребро в .
Будем поддерживать инвариант:
- Для всех вершин, кроме, возможно, последней добавленной , известны суффиксные ссылки.
- Суффиксная ссылка всегда ведет в вершину, а не в середину ребра.
При добавлении каждого следующего суффикса будем выполнять следующие шаги:
- Если суффиксная ссылка
- Поднимемся вверх к ее предку;
- Пройдем по суффиксной ссылке;
- Спустимся вниз на столько символов, сколько мы прошли вверх к предку (fast scanning).
- Если мы оказались посередине ребра, разрежем его и добавим вершину.
- Установим суффиксную ссылку для
не определена:
- Иначе просто пройдем по суффиксной ссылке.
- Будем идти по дереву вниз, пока либо не будет перехода по символу, либо очередной символ на ребре не совпадет с символом нового суффикса (slow scanning)
- Добавим ребро/разрежем существующее, запомним новую позицию и добавим оставшуюся часть суффикса в качестве листа.
Утверждение: |
Инвариант алгоритма сохраняется |
Инвариант мог бы нарушиться только в случае, если бы не существовало вершины в суффиксной ссылке для Покажем, что это невозможно. Рассмотрим, что значит, что , но мы продолжили бы сканирование по ребру дальше и получили две вершины с неопределенными суффиксными ссылками. остановилась посередине ребра. Это означает, что все суффиксы , которые дошли до этого места, имеют совпадающие следующие символы, по определению отличающиеся от символа суффикса . Тогда и должен отличаться в этом символе, значит . |
Псевдокод
В вершинах дерева
будем хранить следующую информацию:- — предок
- — позиции строки, соответствующие ребру до предка
- — длина ребра до предка
- — глубина вершины в символах
- — суффиксная ссылка
- — массив детей
Конструктор будет иметь вид Node(Node parent, int start, int end, int depth)
.
Пусть глобально известна строка со специальным символом на конце, ее длина и используемый алфавит .
Node buildSuffixTree():
superRoot = Node(null, 0, -1, 0)
superRoot.suf = superRoot
root = Node(superRoot, 0, -1, 0)
root.suf = superRoot
for c in
:
superRoot.children[c] = root
head = root
for i = 1 to n:
head = addSuffix(head, i)
return root
Node addSuffix(Node head, int start): newHead = slowScan(fastScan(head), start) newLeaf = Node(newHead, start + newHead.depth, n, n - start + 1) newHead.children[s[start + newHead.depth]] = newLeaf return newHead
Node fastScan(Node head):
if head.depth == 0:
return head
if head.suf == null:
skipped = head.length
curPos = head.start
if skipped > 0 and head.parent.depth == 0:
skipped--
curPos++
curNode = head.parent.suf
while curNode.children[s[curPos]].length
skipped:
curNode = curNode.children[s[curPos]]
skipped -= curNode.length
curPos += curNode.length
if skipped > 0:
newNode = split(curNode, curNode.children[s[curPos]], skipped)
head.suf = newNode
return head.suf
Node split(Node parent, Node child, int edgeLength): inserted = Node(parent, child.start, child.start + edgeLenth - 1, parent.depth + edgeLength) parent.children[s[child.start]] = inserted child.start += edgeLength child.length -= edgeLength inserted.children[s[child.start]] = child child.parent = inserted return inserted
Node slowScan(Node node, int start):
curNode = node
curPos = start + node.depth
while curNode.children[s[curPos]] != null:
child = curNode.children[s[curPos]]
edgePos = 0
while child.start + edgePos
child.end and s[child.start + edgePos] == s[curPos]:
curPos++
edgePos++
if child.start + edgePos > child.end:
curNode = child
else:
curNode = split(curNode, child, edgePos)
break
return curNode
Асимптотическая оценка
В приведенном алгоритме используется константное число операций на добавление одного суффикса, не считая slow scanning и fast scanning.
Slow scanning делает
операций, что суммарно дает операций.Fast scanning работает с целыми ребрами, поэтому будем использовать в качестве потенциала глубину в вершинах. Из структуры суффиксного дерева мы знаем, что суффиксная ссылка может уменьшить глубину вершины не более, чем на , так что мы на каждой итерации поднимаемся не более, чем на — один раз к предку, а потом по суффиксной ссылке, что составляет за весь алгоритм. Соответственно, спустимся мы тоже суммарно раз, так как и максимальная глубина составляет .
Итоговая асимптотика алгоритма —
.Сравнение с другими алгоритмами
В сравнении с алгоритмом Вайнера:
- Преимущества: каждая вершина хранит только суффиксную ссылку, а не массивы размера алфавита.
- Недостатки: нет.
В сравнении с алгоритмом Укконена:
- Преимущества: мы строим суффиксное дерево в явной форме, что может облегчить понимание алгоритма.
- Недостатки: является offline алгоритмом, то есть требует для начала работы всю строку целиком.
Источники
- Suffix tree - Wikipedia
- Gusfield, Dan , Algorithms on Strings, Trees and Sequences: Computer Science and Computational Biology // Cambridge University Press, — 1999. — ISBN: 0-521-58519-8
- C. N. Storm, McCreight's suffix tree construction algorithm
- Реализация на языке Java