Просмотр исходного текста страницы Поиск ближайших соседей с помощью иерархического маленького мира

'''Иерархия навигируемых малых миров''' (англ. ''Hierarchical Navigable Small World'') {{---}} структура данных, позволяющая эффективно находить K почти что ближайших соседей. По своей концепции напоминает [[список с пропусками]].

==Маленький мир==
[[Файл:SmallWorld_Greedy.png|мини|500px|Жадный поиск ближайшего соседа. 
Чёрные ребра {{---}} короткие связи с ближайшими соседями, красные рёбра {{---}} длинные связи, обеспечивающие малое мат. ожидание длины пути.
[https://www.hse.ru/mirror/pubs/lib/data/access/ram/ticket/30/1551306415713d428dca7fd05f3d108fe8e66042c4/Approximate%20nearest%20neighbor%20algorithm%20based%20on%20navigable%20(Information%20Systems).pdf Оригинал]]]
'''Маленький мир''' (англ. ''Small World'') {{---}} граф, в котором мат. ожидание кратчайшего пути между двумя случайно выбранными вершинами растёт пропорционально <tex>\log{N}</tex>. Но при этом средняя степень вершины мала.

Для маленького мира на точках в Евклидовом пространстве, приближенный поиск K ближайших соседей будет выглядеть так:
 '''KNN'''(request, m, k)''':'''
     nearest = new TreeSet()  <font color="green">// вершины упорядочены по возрастанию расстояния до request </font>
     candidates = new TreeSet()
     visited = new HashSet()
     '''for''' i = 1 '''to''' m
         candidates.add(случайная вершина графа)
         tempNearest = new TreeMap()
         '''while''' ''true''
             current = candidates.popMin()       
             '''if''' current дальше чем k-й элемент nearest
                 '''break'''
             '''for''' v : смежные с current вершины
                 '''if''' !visited.contains(v)
                     candidates.add(v)
                     visited.add(v)
                     tempNearest.add(v)
         nearest.addAll(tempNearest)
     '''return''' k первых вершин из nearest

Очевидный недостаток этого алгоритма {{---}} опасность свалиться в локальный минимум.

==Описание структуры==
'''Иерархический Маленький мир''' (англ. ''Hierarchical Navigable Small World'') {{---}} слоистая структура графов. На нулевом слое представлены все '''N''' вершин из исходной выборки. Вершина, присутствующая на уровне '''L''' так же присутствует на уровне '''L + 1''' с вероятностью '''P'''. Т.е. кол-во слоёв растет как <tex>O(\log N)</tex>. Количество соседей каждой вершины на каждом уровне ограниченно константой, что позволяет делать запросы на добавление и удаление вершины за <tex>O(\log N)</tex>.
{|align="center"
 |-valign="top"
 |[[Файл:HNSW.png|мини|500px|Иерархический маленький мир. [https://arxiv.org/abs/1603.09320 Источник]]]
 |}

==Операции над структурой==

===Поиск ближайших соседей в слое===
Жадно идём по уровню в сторону запроса.
 '''searchLayer'''(q, ep, ef, lc)''':'''
     <font color="green">// Ввод: запрос q, входная точка ep, искомое количество ближайших соседей ef, номер слоя lc</font>
     <font color="green">// Вывод: ef ближайших соседей q</font>
     candidates = new TreeSet() <font color="green">// Вершины упорядочены по возрастанию расстояния до request. </font>
     result = new TreeSet()
     visited = new HashSet()
     '''while''' candidates.isNotEmpty()
         current = candidates.getMin()
         furthest = result.getMax()
         '''if''' distance(current, q) > distance(furthest, q)
             '''break''' <font color="green">// Мы в локальном минимуме. </font>
         '''for''' v : смежные с current вершины
             '''if''' !visited.contains(r)
                 visited.add(v)
                 furthest = result.getMax()
                 '''if''' distance(v, q) < distance(furthest, q) or result.count() < ef
                     candidates.add(v)
                     result.add(v)
                     if result.count() > ef
                         result.removeLast()
     '''return''' result

===Поиск ближайших соседей во всей структуре===

 '''knn'''(hnsw, q, K, ef)''':'''
     <font color="green">// Ввод: граф hnsw, запрос q, искомое количество ближайших соседей  K, количество кандидатов при поиске ef</font>
     <font color="green">// Вывод: K ближайших соседей q</font>
     result = new TreeSet() <font color="green">// Вершины упорядочены по возрастанию расстояния до request. </font>
     ep = случайная вершина из верхнего слоя hnsw
     maxLevel = индекс самого высокого слоя в hnsw
     '''for''' level = maxLevel to 1
         result = searchLayer(q, ep, ef=1, level) <font color="green">// На каждом уровне, кроме нижнего мы ищем всего одну ближайшую вершину. </font>
         ep = result.getMin()
     result = searchLayer(q, ep, ef, lc=0)
     '''return''' первые K элементов из result

===Вставка элемента===
Случайным образом выбираем максимальный слой, на котором представлена '''q'''.
Жадно ищем '''M''' ближайших вершин к '''q''' на каждом уровне, на котором она представлена; добавляем связи '''q''' с ними; удаляем лишние связи у новообразовавшихся соседей.
 '''insert'''(hnsw, q, m, mMax, ef, mL)''':'''
     <font color="green">// Ввод: граф hnsw, запрос на добавление q, желаемое количество связей m, максимальное количество связей вершины </font>
     <font color="green">//       на одном слое mMax, количество кандидатов при поиске ef, коэффициент выбора высоты mL. </font>
     <font color="green">// Вывод: hnsw с вставленным элементом q. </font>
     result = new TreeSet() <font color="green">// Вершины упорядочены по возрастанию расстояния до q. </font>
     ep = случайная вершина из верхнего слоя hnsw
     maxLevel = индекс самого высокого слоя в hnsw
     qLevel = -ln(rand(eps, 1.0)) * mL <font color="green">// Верхний слой для вершины q. </font>
     '''for''' level = maxLevel to qLevel + 1
         result = searchLayer(q, ep, ef=1, level)
         ep = result
     '''for''' level = min(maxLevel, qLevel) to 0
         result = searchLayer(q, ep, ef, level)
         neighbors = searchLayer.getFirst(M)
         Добавить связи между neighbours и q на уровне level
         '''for''' v : neighbors
             <font color="green">// Убираем лишние связи, если требуется. </font>
             vNeighbours = смежные с v на уровне level
             '''if''' vNeighbours.Count() > mMax
                 оставить у v только связи с ближайшими mMax смежными вершинами на уровне level
         ep = result
     '''if''' qLevel > maxLevel
         Добавить недостающие слои в hnsw, в каждый из них положить q

== См. также ==
== Примечания ==
== Источники информации ==
[https://en.wikipedia.org/wiki/Small-world_network Статья на википедии о маленьких мирах]