Поиск ближайших соседей с помощью иерархического маленького мира — различия между версиями
Marsermd (обсуждение | вклад) (→Поиск ближайших соседей во всей структуре) |
Marsermd (обсуждение | вклад) (→Поиск ближайших соседей в слое) |
||
Строка 40: | Строка 40: | ||
===Поиск ближайших соседей в слое=== | ===Поиск ближайших соседей в слое=== | ||
Жадно идём по уровню в сторону запроса. | Жадно идём по уровню в сторону запроса. | ||
− | ''' | + | '''searchLayer'''(q, ep, ef, lc)''':''' |
− | <font color="green">// Ввод: запрос q, входная точка ep, количество ближайших соседей | + | <font color="green">// Ввод: запрос q, входная точка ep, искомое количество ближайших соседей ef, номер слоя lc</font> |
<font color="green">// Вывод: ef ближайших соседей q</font> | <font color="green">// Вывод: ef ближайших соседей q</font> | ||
− | candidates = new TreeSet() <font color="green">// | + | candidates = new TreeSet() <font color="green">// Вершины упорядочены по возрастанию расстояния до request. </font> |
result = new TreeSet() | result = new TreeSet() | ||
visited = new HashSet() | visited = new HashSet() | ||
Строка 50: | Строка 50: | ||
furthest = result.getMax() | furthest = result.getMax() | ||
'''if''' distance(current, q) > distance(furthest, q) | '''if''' distance(current, q) > distance(furthest, q) | ||
− | '''break''' <font color="green">// | + | '''break''' <font color="green">// Мы в локальном минимуме. </font> |
'''for''' v : смежные с current вершины | '''for''' v : смежные с current вершины | ||
'''if''' !visited.contains(r) | '''if''' !visited.contains(r) |
Версия 01:32, 1 марта 2019
Иерархия навигируемых малых миров (англ. Hierarchical Navigable Small World) — структура данных, позволяющая эффективно находить K почти что ближайших соседей. По своей концепции напоминает список с пропусками.
Содержание
Маленький мир
Маленький мир (англ. Small World) — граф, в котором мат. ожидание кратчайшего пути между двумя случайно выбранными вершинами растёт пропорционально
. Но при этом средняя степень вершины мала.Для маленького мира на точках в Евклидовом пространстве, приближенный поиск K ближайших соседей будет выглядеть так:
KNN(request, m, k): nearest = new TreeSet() // вершины упорядочены по возрастанию расстояния до request candidates = new TreeSet() visited = new HashSet() for i = 1 to m candidates.add(случайная вершина графа) tempNearest = new TreeMap() while true current = candidates.popMin() if current дальше чем k-й элемент nearest break for v : смежные с current вершины if !visited.contains(v) candidates.add(v) visited.add(v) tempNearest.add(v) nearest.addAll(tempNearest) return k первых вершин из nearest
Очевидный недостаток этого алгоритма — опасность свалиться в локальный минимум.
Описание структуры
Иерархический Маленький мир (англ. Hierarchical Navigable Small World) — слоистая структура графов. На нулевом слое представлены все N вершин из исходной выборки. Вершина, присутствующая на уровне L так же присутствует на уровне L + 1 с вероятностью P. Т.е. кол-во слоёв растет как
. Количество соседей каждой вершины на каждом уровне ограниченно константой, что позволяет делать запросы на добавление и удаление вершины заОперации над структурой
Поиск ближайших соседей в слое
Жадно идём по уровню в сторону запроса.
searchLayer(q, ep, ef, lc): // Ввод: запрос q, входная точка ep, искомое количество ближайших соседей ef, номер слоя lc // Вывод: ef ближайших соседей q candidates = new TreeSet() // Вершины упорядочены по возрастанию расстояния до request. result = new TreeSet() visited = new HashSet() while candidates.isNotEmpty() current = candidates.getMin() furthest = result.getMax() if distance(current, q) > distance(furthest, q) break // Мы в локальном минимуме. for v : смежные с current вершины if !visited.contains(r) visited.add(v) furthest = result.getMax() if distance(v, q) < distance(furthest, q) or result.count() < ef candidates.add(v) result.add(v) if result.count() > ef result.removeLast() return result
Поиск ближайших соседей во всей структуре
knn(hnsw, q, K, ef): // Ввод: граф hnsw, запрос q, искомое количество ближайших соседей K, количество кандидатов при поиске ef // Вывод: K ближайших соседей q result = new TreeSet() // Вершины упорядочены по возрастанию расстояния до request. ep = случайная вершина из верхнего слоя hnsw maxLevel = индекс самого высокого слоя в hnsw for level = maxLevel to 1 result = searchLayer(q, ep, ef=1, level) // На каждом уровне, кроме нижнего мы ищем всего одну ближайшую вершину. ep = result.getMin() result = searchLayer(q, ep, ef, lc=0) return первые K элементов из result