Ортогональный поиск — различия между версиями
Glukos (обсуждение | вклад) (→Сбалансированное дерево поиска) |
Glukos (обсуждение | вклад) (→Сбалансированное дерево поиска) |
||
Строка 33: | Строка 33: | ||
# Для каждой из промежуточных вершин <tex>v_i</tex> на восходящем пути <tex>v_l \to v_n</tex> зафиксируем, из какого ребенка мы поднялись в вершину <tex>v_i</tex>. Если мы поднялись из левого сына, то добавим в искомое множество саму вершину <tex>v_i</tex>, а также множество точек, находящихся в поддереве правого сына вершины <tex>v_i</tex>. Если же мы поднялись из правого сына, то не добавляем ничего. | # Для каждой из промежуточных вершин <tex>v_i</tex> на восходящем пути <tex>v_l \to v_n</tex> зафиксируем, из какого ребенка мы поднялись в вершину <tex>v_i</tex>. Если мы поднялись из левого сына, то добавим в искомое множество саму вершину <tex>v_i</tex>, а также множество точек, находящихся в поддереве правого сына вершины <tex>v_i</tex>. Если же мы поднялись из правого сына, то не добавляем ничего. | ||
# Повторим процесс для пути <tex>v_r \to v_n</tex>. Здесь ориентация сторон инвертирована: будем пополнять множество в том случае, если мы поднялись из правого сына. | # Повторим процесс для пути <tex>v_r \to v_n</tex>. Здесь ориентация сторон инвертирована: будем пополнять множество в том случае, если мы поднялись из правого сына. | ||
− | Пример процесса показан на иллюстрации: | + | Пример процесса показан на иллюстрации:<br> |
[[Файл:ortog_search_tree2.png|700px]]<br> | [[Файл:ortog_search_tree2.png|700px]]<br> | ||
В итоге, в множество мы добавим <tex>O(\log n)</tex> вершин и <tex>O(\log n)</tex> поддеревьев дерева поиска. Теперь нужно просеять полученное множество — извлечь из него те элементы, <tex>y</tex>-координата которых не лежит в интервале <tex>(y_{min}, y_{max})</tex>. Для точек это сделать просто — нужно вручную проверить, лежит ли <tex>y</tex>-координата в нужном интервале. Для каждого из полученных поддеревьев обратимся к массиву содержащихся в нем точек и запустим от него приведенную выше функцию <tex>range{\_}search(y_{min}, y_{max})</tex>. Все полученные таким образом точки и будут составлять ответ. | В итоге, в множество мы добавим <tex>O(\log n)</tex> вершин и <tex>O(\log n)</tex> поддеревьев дерева поиска. Теперь нужно просеять полученное множество — извлечь из него те элементы, <tex>y</tex>-координата которых не лежит в интервале <tex>(y_{min}, y_{max})</tex>. Для точек это сделать просто — нужно вручную проверить, лежит ли <tex>y</tex>-координата в нужном интервале. Для каждого из полученных поддеревьев обратимся к массиву содержащихся в нем точек и запустим от него приведенную выше функцию <tex>range{\_}search(y_{min}, y_{max})</tex>. Все полученные таким образом точки и будут составлять ответ. |
Версия 02:05, 5 июня 2012
Содержание
Простейший случай
Пусть дана прямая с точками на ней и отрезок. Точки даны в отсортированном порядке. Необходимо указать, какие из изначальных точек лежат на этом отрезке.
Данная задача решается с помощью функций из STL - upper_bound и lower_bound.
lower_bound возвращает итератор на первый элемент, больший либо равный данного.
upper_bound возвращает итератор на первый элемент множества со значением, большим данного.
Рассмотрим на примере:
Код реализации:
template<class RauIter, class OutIter, class Scalar> OutIter range_search(RauIter p, RauIter q, OutIter out) { return std::copy(lower_bound(p, q, l), upper_bound(p, q, r), out); }
Сбалансированное дерево поиска
Переходим к двумерному случаю. Пусть дано некоторое множество точек на плоскости. Нам необходимо ответить, какие именно из них лежат в некотором заданном прямоугольнике.
Для этого возьмем любое сбалансированное дерево поиска и наполним его точками
Рассмотрим на примере:
Рассмотрим, как в такой структуре данных будет выглядеть поиск множества точек, находящихся в заданном прямоугольнике . Для начала, найдем в дереве те точки, -координата которых лежит в интервале . Сделаем это следующим образом:
- Найдем в дереве поиска вершины с минимальной и максимальной -координатой из прямоугольника запроса, добавим их в искомое множество, обозначим их как и .
- Добавим в искомое множество их наименьшего общего предка .
- Для каждой из промежуточных вершин на восходящем пути зафиксируем, из какого ребенка мы поднялись в вершину . Если мы поднялись из левого сына, то добавим в искомое множество саму вершину , а также множество точек, находящихся в поддереве правого сына вершины . Если же мы поднялись из правого сына, то не добавляем ничего.
- Повторим процесс для пути . Здесь ориентация сторон инвертирована: будем пополнять множество в том случае, если мы поднялись из правого сына.
Пример процесса показан на иллюстрации:
В итоге, в множество мы добавим вершин и поддеревьев дерева поиска. Теперь нужно просеять полученное множество — извлечь из него те элементы, -координата которых не лежит в интервале . Для точек это сделать просто — нужно вручную проверить, лежит ли -координата в нужном интервале. Для каждого из полученных поддеревьев обратимся к массиву содержащихся в нем точек и запустим от него приведенную выше функцию . Все полученные таким образом точки и будут составлять ответ.
Каждая из функций будет работать в худшем случае за , отсюда получаем итоговое время выполнения запроса . Что касается памяти, то в сбалансированном дереве поиска слоев, а каждый слой хранит массивы, содержащие в сумме ровно точек, соответственно вся структура в целом занимает памяти.
Такую структуру данных можно при необходимости обобщить на случай большей размерности. Пусть у нас есть множество точек из
-мерного пространства, каждая из которых представляется как координатных чисел: . Тогда, строя дерево поиска по координате , в каждой вершине будем хранить другое дерево поиска с ключом , составленное из точек, лежащих в соответствующем поддереве. В дереве поиска, составленном по предпоследней координате , уже не будет необходимости хранить в каждой вершине целое дерево, поскольку при переходе на последнюю координату дальнейший поиск производиться не будет, поэтому в вершинах будем хранить массивы, так же, как и в двумерном случае. Оценим занимаемую память и время запроса: при добавлении следующей координаты асимптотика обеих величин умножается на . Отсюда, получаем оценку на время запроса и на занимаемую память.Такой же результат можно получить с помощью сжатого многомерного дерева отрезков.
Прошитые отсортированные массивы
Для ускорения запроса можно "прошить" дерево поиска, а именно: каждый элемент массива, сохраненного в какой-либо вершине, соединить с элементами массивов, сохраненных в вершинах-детях. Соединять будем по следующему принципу: элемент
Для выполнения завершающей фазы поиска нам достаточно будет посчитать и только на массиве, привязанному к корню дерева. Для получения границ на других массивах можно будет просто спуститься по ссылкам от массива-предка за . Таким образом, поиск теперь будет выполняться за , где — размерность пространства.
TODO: здесь тоже надо что-нибудь нарисовать