Просмотр исходного текста страницы Поиск ближайших соседей с помощью иерархического маленького мира

'''Иерархический маленький мир''' (англ. ''Hierarchical Navigable Small World'') {{---}} структура данных, позволяющая эффективно находить K почти что ближайших соседей. По своей концепции напоминает [[список с пропусками]].

== Применение ==
Представим себе ситуацию: <br/>
* У социальной сети есть 10&sup1;&sup1; пользовательских фотографий с отмеченными лицами на них.
* По новой фотографии требуется быстро узнать кто на ней и предложить пользователю отметить этого человека.<br/>
<br/>
Возможный процесс:
# Обучаем FaceNet<ref>[https://github.com/davidsandberg/facenet FaceNet]</ref> выдавать 128-мерные вектора по изображению лица, т.ч. у фотографий одного человека похожие значения векторов.
# Добавляем 10&sup1;&sup1; векторов в иерархический маленький мир.
# При добавлении новой фотографии, вычисляем соответствующий лицу вектор
# Ищем K его ближайших соседей.
# Классифицируем лицо использованием [[Метрический классификатор и метод ближайших соседей#Использование ядер сглаживания|ядер сглаживания]].
# Если пользователь подтвердил нашу догадку, добавляем этот вектор в иерархический маленький мир.

==Маленький мир==
[[Файл:SmallWorld_Greedy.png|мини|500px|Жадный поиск ближайшего соседа. 
Чёрные ребра {{---}} короткие связи с ближайшими соседями, красные рёбра {{---}} длинные связи, обеспечивающие малое мат. ожидание длины пути.
[https://www.hse.ru/mirror/pubs/lib/data/access/ram/ticket/30/1551306415713d428dca7fd05f3d108fe8e66042c4/Approximate%20nearest%20neighbor%20algorithm%20based%20on%20navigable%20(Information%20Systems).pdf Оригинал]]]
'''Маленький мир'''<ref>[https://en.wikipedia.org/wiki/Small-world_network Статья о маленьком мире на английской википедии]</ref> (англ. ''Small World''<ref>[https://en.wikipedia.org/wiki/Small-world_network Статья о маленьком мире на википедии]</ref>) {{---}} граф, в котором мат. ожидание кратчайшего пути между двумя случайно выбранными вершинами растёт пропорционально <tex>\log{N}</tex>. Но при этом средняя степень вершины мала.

Для маленького мира на точках в Евклидовом пространстве жадный поиск K ближайших соседей будет выглядеть так:
 '''knn'''(V, E, request, m, k)''':'''
     W = <tex>\emptyset</tex>  <font color="green">// Ближайшие к q вершины. </font>
     C = <tex>\emptyset</tex>  <font color="green">// Вершины, которые предстоит посетить. </font>
     V = <tex>\emptyset</tex>  <font color="green">// Посещённые вершины. </font>
     '''for''' i = 1 '''to''' m
         C = С <tex>\bigcup</tex> <tex>random_v</tex> v <tex>\in</tex> G
         TN = <tex>\emptyset</tex>  <font color="green">// Ближайшие вершины в этом проходе.</font>
         '''while''' ''true''
             u = {q1 | <tex>\forall</tex> q2 <tex>\in</tex> C, |q - q1| <= |q - q2|} <font color="green">// Ближайшая к q вершина из C </font>
             C = C <tex>\setminus</tex> u
             '''if''' u дальше чем k-й элемент W
                 '''break'''
             '''for''' e: (u, e) '''in''' G
                 '''if''' e <tex>{\notin}</tex> V
                     C = C <tex>\bigcup</tex> e
                     V = V <tex>\bigcup</tex> e
                     TN = TN <tex>\bigcup</tex> e
         W = W <tex>\bigcup</tex> TN
     '''return''' k ближайших к q вершин из W

Очевидный недостаток этого алгоритма {{---}} опасность свалиться в локальный минимум, остановившись в каком-то кластере. С увеличением числа m, вероятность такого застревания экспоненциально падает.

==Описание структуры==
'''Иерархический Маленький мир''' (англ. ''Hierarchical Navigable Small World'') {{---}} слоистая структура графов. На нулевом слое представлены все '''N''' вершин из исходной выборки. Вершина, присутствующая на уровне '''L''' так же присутствует на уровне '''L + 1''' с вероятностью '''P'''. Т.е. кол-во слоёв растет как <tex>O(\log N)</tex>. Количество соседей каждой вершины на каждом уровне ограниченно константой, что позволяет делать запросы на добавление и удаление вершины за <tex>O(\log N)</tex>.
{|align="center"
 |-valign="top"
 |[[Файл:HNSW.png|мини|500px|Иерархический маленький мир. [https://arxiv.org/abs/1603.09320 Источник]]]
 |}

==Операции над структурой==

===Поиск ближайших соседей в слое===
Жадно идём по уровню в сторону запроса.   
 '''searchLayer'''(q, ep, ef, layer)''':'''
     <font color="green">// Входные данные: иерархия графов hnsw, запрос q, входные точки ep, искомое количество ближайших соседей ef, номер слоя layer.</font>
     <font color="green">// Возвращает: ef ближайших соседей q в слое layer.</font>
     W = <tex>\emptyset</tex>  <font color="green">// Ближайшие к q вершины. </font>
     C = <tex>\emptyset</tex>  <font color="green">// Вершины, которые предстоит посетить. </font>
     V = <tex>\emptyset</tex>  <font color="green">// Посещённые вершины. </font>
     '''while''' C != <tex>\emptyset</tex>
         u = {q1 | <tex>\forall</tex> q2 <tex>\in</tex> C, |q - q1| <= |q - q2|} <font color="green">// Ближайшая к q вершина из C. </font>
         f = {q1 | <tex>\forall</tex> q2 <tex>\in</tex> W, |q - q1| >= |q - q2|} <font color="green">// Самая дальняя от q вершина из W. </font>
         '''if''' |u - q| > |f - q|
             '''break''' <font color="green">// Мы в локальном минимуме. </font>
         '''for''' e : (u, e) '''in''' G
             '''if''' e <tex>{\notin}</tex> V
                 V = V <tex>\bigcup</tex> e
                 f = {q1 | <tex>\forall</tex> q2 <tex>\in</tex> W, |q - q1| >= |q - q2|} <font color="green">// Самая дальняя от q вершина из W. </font>
                 '''if''' |e - q| < |f - q| or |W| < ef
                     C = C <tex>\bigcup</tex> e
                     W = W <tex>\bigcup</tex> e
                     if |W| > ef
                         W = W \ f
     '''return''' W

===Поиск ближайших соседей во всей структуре===
[[Файл:HnswSearch.png|мини|500px|Жадный поиск вершины.
[https://arxiv.org/abs/1603.09320 Оригинал]]]
# Идём с верхнего уровня до первого:
## Жадно ищем ближайшую к '''q''' вершину на текущем уровне.
## Спускаемся в соответствующую соседу вершине на уровень ниже.
# На нулевом уровне жадно ищем '''k''' ближайших соседей.
 '''knn'''(hnsw, q, k, ef)''':'''
     <font color="green">// Входные данные: иерархия графов hnsw, запрос q, искомое количество ближайших соседей  K, количество кандидатов при поиске ef</font>
     <font color="green">// Возвращает: k ближайших соседей q</font>
     W = <tex>\emptyset</tex>  <font color="green">// ближайшие к q вершины </font>
     mL = |hnsw| - 1
     ep = <tex>random_v</tex> v <tex>\in</tex> hnsw[mL]
     '''for''' level = mL to 1
         W = searchLayer(hnsw, q, ep, ef=1, level) <font color="green">// На каждом уровне, кроме нижнего мы ищем всего одну ближайшую вершину. </font>
         ep = W
     W = searchLayer(hnsw, q, ep, ef, lc=0)
     '''return''' k ближайших к q вершин из W

===Вставка элемента===
# Случайным образом выбираем максимальный слой, на котором будет представлена '''q'''.
# На каждом уровне, где будет представлена '''q''', сверху вниз:
## Жадно ищем '''M''' ближайших к '''q''' вершин.
## Добавляем связи '''q''' с ними.
## Удаляем лишние связи у новообразовавшихся соседей.
 '''insert'''(hnsw, q, m, mMax, ef, mL)''':'''
     <font color="green">// Входные данные: иерархия графов hnsw, запрос на добавление q, желаемое количество связей m, максимальное количество связей вершины </font>
     <font color="green">//       на одном слое mMax, количество кандидатов при поиске ef, коэффициент выбора высоты mL. </font>
     <font color="green">// Возвращает: hnsw с вставленным элементом q. </font>
     W = <tex>\emptyset</tex>  <font color="green">// ближайшие к q вершины </font>
     mL = |hnsw| - 1
     ep = <tex>random_v</tex> v <tex>\in</tex> hnsw[mL]
     qL = -ln(rand(eps, 1.0)) * mL <font color="green">// Верхний слой для вершины q. </font>
     '''for''' level = mL to qL + 1
         W = searchLayer(q, ep, ef=1, level)
         ep = W
     '''for''' level = min(mL, qL) to 0
         W = searchLayer(q, ep, ef, level)
         neighbours = M ближайших к q вершин из W
         '''for''' n <tex>\in</tex> neighbours:
             hnsw[level] = hnsw[level] <tex>\bigcup</tex> (n, q)
             hnsw[level] = hnsw[level] <tex>\bigcup</tex> (q, n)
             nNeighbours = {v| (v, n) '''in''' hnsw[level]}
             <font color="green">// Убираем лишние связи, если требуется. </font>
             '''if''' nNeighbours.Count() > mMax
                 <font color="green">// Самая дальняя от n вершина, смежняя с ней. </font>
                 v = {q1 | (q2, n) <tex>\in</tex> nNeighbours & <tex>\forall</tex>q2 <tex>\in</tex> hnsw[level], |q - q1| >= |q - q2|}
                 hnsw[level] = hnsw[level] <tex>\setminus</tex> (n, v)
                 hnsw[level] = hnsw[level] <tex>\setminus</tex> (v, n)
         ep = W
     '''if''' qL > mL
         '''for''' level = mL to qL
             hnsw.append({q, {}})

== См. также ==
[[Метрический классификатор и метод ближайших соседей]]<br />

== Примечания ==
== Источники информации ==