Бор — различия между версиями

Версия 19:28, 13 апреля 2016

Бор (англ. trie, луч, нагруженное дерево) — структура данных для хранения набора строк, представляющая из себя подвешенное дерево с символами на рёбрах. Строки получаются последовательной записью всех рёбер между корнем бора и терминальной вершиной. Размер бора линейно зависит от суммы длин всех строк, а поиск в бору занимает время, пропорциональное длине образца.

Содержание

1 Пример
2 Построение
3 Использование бора
- 3.1 Поиск строки в бору
- 3.2 Использование бора в качестве ассоциативного массива
  - 3.2.1 Обозначения
  - 3.2.2 Использование
4 См. также
5 Источники информации

Пример

Бор для набора образцов :

Построение

Обозначения

Введем следующие обозначения:

[math]P = \{P_1,\ldots,P_k\} [/math] — набор строк, называемый словарем;
— сумма длин строк.

Бор храним как дерево, в котором на ребрах хранятся символы, а в вершинах указатели на конец строки или её продолжение.

Алгоритм

Непосредственно построение:

Начало.
Шаг 1. Создадим дерево из одной вершины (в нашем случае корня).
Шаг 2. Добавление элементов в дерево.
- Добавляем шаблоны [math]P_i[/math] один за другим. Следуем из корня по рёбрам, отмеченным буквами из [math]P_i[/math], пока возможно.
- Если [math]P_i[/math] заканчивается в [math]v[/math], сохраняем идентификатор [math]P_i[/math] (например, [math]i[/math]) в [math]v[/math] и отмечаем вершину [math]v[/math] как терминальную.
- Если ребра, отмеченного очередной буквой [math]P_i[/math] нет, то создаем новое ребро и вершину для каждого оставшегося символа [math]P_i[/math].
Конец.

Это занимает, очевидно, времени, так как поиск буквы, по которой нужно переходить, происходит за [math]O(1)[/math](в вершине есть указатели на буквы).

Поскольку на каждую вершину приходится [math]O(k)[/math] памяти, то использование памяти есть [math]O(nk)[/math].

Другие модификации

Бор позволяет решать задачу поиска подстроки в строке, если построить его на множестве суффиксов исходной строки. Такая модификация называется суффиксным бором.

Использование бора

Поиск строки в бору

Задача:

Требуется найти слово в словаре.

Из корня бора идем по рёбрам, отмеченным символами [math]S[/math], пока возможно. Если с последним символом [math]S[/math] мы приходим в вершину с сохраненным идентификатором, то [math]S[/math] — слово из словаря. Если в какой-то момент ребра, отмеченного нужным символом, не находится, то строки [math]S[/math] в словаре нет. Ясно, что это занимает [math]O (|S|)[/math] времени. Таким образом, бор — это эффективный способ хранить словарь и искать в нем слова.

Использование бора в качестве ассоциативного массива

Обозначения

[math]k[/math] — длина строки
[math]m[/math] — число ключей

Использование

Благодаря тому, что бор позволяет решать задачу, описанную выше, он может выступать в качестве ассоциативного массива. Обычно, когда требуется такая структура, то используют двоичное дерево поиска или хеш-таблицу. Бор объединяет некоторые преимущества этих структур данных и позволяет одновременно делать следующие операции, которые каждая из структур не может делать по отдельности.

Добавление элемента в ассоциативный массив за [math]O(k)[/math] (а дерево может за [math]O(k\log m)[/math]).
Получение всех ключей в отсортированном порядке за [math]O(m)[/math] (а хеш-таблица может только за [math]O(m\log m)[/math]).

Несмотря на данные достоинства у реализации ассоциативного массива в виде бора есть следующий недостаток:

Бор хранит строки или символы, а это значит, что у значения ключа будет ограничение на тип (строки, символы, либо числа, представленные как строки). Чтобы это исправить, будем использовать любой тип данных, у которого прописаны операторы сравнения.

См. также

Источники информации

Томас Х. Кормен, Чарльз И. Лейзерсон, Рональд Л. Ривест, Клиффорд Штайн Алгоритмы: построение и анализ — 2-е изд. — М.: «Вильямс», 2007. — ISBN 5-8489-0857-4
Бор. Построение бора

@@ Строка 20: / Строка 20: @@
 **Добавляем шаблоны <tex>P_i</tex> один за другим. Следуем из корня по [[Основные определения теории графов | рёбрам]], отмеченным буквами из <tex>P_i</tex>, пока возможно.
 **Если <tex>P_i</tex> заканчивается в <tex>v</tex>, сохраняем идентификатор <tex>P_i</tex> (например, <tex>i</tex>) в <tex>v</tex> и отмечаем вершину <tex>v</tex> как терминальную.
-**Если [[Основные определения теории графов | ребра]], отмеченного очередной буквой <tex>P_i</tex> нет, то создаем новые ребра и вершины для всех оставшихся символов <tex>P_i</tex>.
+**Если [[Основные определения теории графов | ребра]], отмеченного очередной буквой <tex>P_i</tex> нет, то создаем новое ребро и вершину для каждого оставшегося символа <tex>P_i</tex>.
 *Конец.
 Это занимает, очевидно, <tex>O(|P_1| + \ldots + |P_k|) = O(n)</tex> времени, так как поиск буквы, по которой нужно переходить, происходит за <tex>O(1)</tex>(в вершине есть указатели на буквы).

Бор — различия между версиями

Версия 19:28, 13 апреля 2016

Содержание

Пример

Построение

Обозначения

Алгоритм

Другие модификации

Использование бора

Поиск строки в бору

Использование бора в качестве ассоциативного массива

Обозначения

Использование

См. также

Источники информации

Навигация

Персональные инструменты

Пространства имён

Варианты

Просмотры

Ещё

Поиск

Навигация

Инструменты