Стохастическое вложение соседей с t-распределением

Версия 16:49, 19 января 2020

Определение:

Стохастическое вложение соседей с t-распределением (англ. t-Distributed Stochastic Neighbor Embedding, t-SNE) — метод визуализации данных высокой размерности с помощью представления каждой точки данных в двух или трехмерном пространстве, являющийся модификацией метода стохастического вложения соседей.

Пример работы t-SNE, Isomap, Sammon mapping, LLE на dataset-е MNIST

Содержание

1 Стохастическое вложение соседей
2 Физическая интерпретация
3 Симметричное стохастическое вложение соседей
4 Проблема скученности
5 Стохастическое вложение соседей с t-распределением
6 Оптимизации в стохастическом вложении соседей с t-распределением
7 См. также
8 Примечания
9 Источники информации

Стохастическое вложение соседей

Пусть стоит задача вложить множество точек в пространстве высокой размерности [math]\{x_i \mid x_i \in X\}[/math] в пространство низкой размерности. Обозначим множество точек в пространстве низкой размерности, которые получаются после вложения через [math]\{y_i \mid y_i \in Y\}[/math]. Стохастическое вложение соседей (англ. Stochastic Neighbor Embedding, SNE) конвертирует расстояния в Евклидовом пространстве высокой размерности между точками в условные вероятности [math]p_{j|i}[/math]. [math]p_{j|i}[/math] — вероятность, что точка [math]x_i[/math] выберет в качестве своего соседа точку [math]x_j[/math] среди остальных точек данных. Будем считать, что вероятность для точки [math]x_i[/math] найти соседа падает с увеличением расстояния от точки [math]x_i[/math] в соответствии с распределением Гаусса^[1] с нулевым математическим ожиданием и стандартным отклонением [math]\sigma_i[/math]. В соответствии с этим [math]p_{j|i}[/math] выражается как

.

Теперь определим похожие вероятности [math]q_{i|j}[/math] для пространства низкой размерности, куда вкладываются точки пространства высокой размерности.

.

Данные вероятности получаются из тех же самых предложений, что были сделаны для пространства высокой размерности, за исключением того, что все распределения Гаусса имеют стандартное отклонение [math]\frac{1}{\sqrt{2}}[/math] для всех точек.

Если удастся хорошо вложить одно пространство в другое, должны совпасть распределения совместных вероятностей. То есть [math]p_{i|j}[/math] должны стать похожими на [math]q_{i|j}[/math]. В связи с этим SNE пытается уменьшить разницу в распределении вероятностей. Стандартной мерой для измерения различия вероятностей служит дивергенция Кульбака-Лейблера^[2]. Определяется она так:

.

В данном случае имеем [math]|X|[/math] распределений. Тогда целевую функцию^[3], который будем оптимизировать, определим как сумму соответствующих дивергенций Кульбака-Лейблера. То есть:

.

Дивергенция Кульбака-Лейблера не является симметричной мерой, поэтому, например, вложение близких точек в удаленные даёт гораздо большее значение ошибки, чем вложение далеких точек в близкие. Другими словами, целевая функция нацелена на сохранение локальной структуры вокруг точек.

Параметры [math]\sigma_i[/math] подбираются следующим образом. Каждое значение параметра порождает свое распределение вероятностей [math]P_i[/math]. Это распределение имеет энтропию^[4]

,

которая возрастает с ростом [math]\sigma_i[/math]. В самом алгоритме [math]\sigma_i[/math] вычисляются с помощью вещественного двоичного поиска по заранее заданной пользователем величине, называемой перплексией^[5], которая определяется как

[math]Perp(P_i) = 2 ^ {H(P_i)}[/math].

Изначально точки [math]y_i[/math] сэмплируют в пространстве низкой размерности в соответствии с распределением Гаусса с маленьким стандартным отклонением с математическим ожиданием в нуле, далее идет оптимизация целевой функции. Она проводится методом градиентного спуска. Градиент равен:

Физическая интерпретация

Есть следующая физическая интерпретация модели. Между точками в пространстве низкой размерности натянуты пружины между каждой парой точек [math]y_i[/math] и [math]y_j[/math]. действующие в направлении [math]y_i - y_j[/math]. Пружины могут притягивать или отталкивать точки в зависимости от расстояния между ними. Сила, прикладываемая пружиной, пропорциональна её длине и жесткости^[6] . Оптимизация функционала в данной интерпретации эквивалентна поиску положения точек, в котором будет наблюдаться равновесие сил.

Симметричное стохастическое вложение соседей

Следующая модификация SNE носит название симметричное стохастическое вложение соседей (англ. Symmetric Stochastic Neighbor Embedding, Symmetric SNE), которая будет использоваться дальше в t-SNE. Симметричный SNE в качестве альтернативы использует совместные вероятности вместо условных. Теперь:

.

Очевидным образом можно определить [math]q_{i j}[/math]:

,

но то же решение для [math]p_{i j}[/math] привело бы к проблеме, что для выброса [math]x_i[/math] [math]p_{i j}[/math] будет очень маленькой для любого [math]x_j[/math], таким образом будет почти нулевой соответствующая дивергенция Кульбака-Лейблера для любого распределения [math]q_{i j}[/math]. Это означало бы, что положение точки [math]y_i[/math] определялось бы очень неточно относительно положения других точек и не было бы особой разницы в том, где она расположена. Поэтому в t-SNE [math]p_{i j}[/math] определили как:

.

Очевидный плюс такого определения в том, что для всех точек, что хорошо скажется на выбросах. А также теперь [math]p_{i j} = p_{j i}[/math], [math]q_{i j} = q_{j i}[/math].

Авторы утверждают, что симметричный SNE вкладывает данные в пространство низкой размерности почти так же как и ассиметричный, а иногда даже лучше.

Градиент при таком подходе принимает вид: .

Проблема скученности

При использовании обычного SNE возникает следующая проблема, которая вытекает из разного распределения вероятностей в пространствах высокой и низкой размерностей. Пусть есть некоторое пространство высокой размерности. Пусть в нем точки равномерно распределены вокруг некоторой точки [math]x_i[/math]. Теперь попытаемся вложить данное пространство в плоскость. Заметим, что область пространства на плоскости, доступная для размещения умеренно-удаленных точек пространства высокой размерности относительно области пространства, доступное для размещения близких точек пространства высокой размерности достаточно мала по сравнению с тем же самым в исходном пространстве (нужно сравнить отношения объемов сфер в этих пространствах). Таким образом, если мы хотим правильно моделировать маленькие расстояния на плоскости и не иметь их между умеренно-удаленными точками пространства высокой размерности, следовало бы поместить умеренно-удаленные точки подальше от точки [math]x_i[/math], чем в исходном. В таком случае на слишком эти далекие точки на плоскости будет действовать небольшая сила притяжения от точки [math]x_i[/math]. Но, принимая во внимание остальные точки, таких сил будет достаточно много, что сожмет все точки и будет мешать образованию кластеров.

Чтобы избежать проблемы скученности было решено использовать в пространстве низкой размерности t-распределение Стьюдента с одной степенью свободы^[7] вместо распределения Гаусса. Данное распределение очень похоже на распределение Гаусса, но имеет большую вероятностную массу на участках, отдаленных от нуля, что решает описанную выше проблему, т.к. теперь удаленные точки лучше отталкиваются.

В связи с заменой распределения [math]q_{i j}[/math] определяется следующим образом:

.

Еще одно свойство данного распределения состоит в том, что описывает закон обратных квадратов^[8] для далеких точек в пространстве низкой размерности, что позволяет думать не об отдельных точках, а о кластерах, которые будут взаимодействовать между собой как отдельные точки.

После замены распределения изменился градиент целевой функции, теперь он равен:

.

Оптимизации в стохастическом вложении соседей с t-распределением

В t-SNE используется 2 основные оптимизации:

Первая оптимизация называется "раннее сжатие". В данной оптимизации на ранних итерациях оптимизации к целевой функции добавляется [math]L_2[/math]-штраф на расстояния в пространстве низкой размерности, что влечет за собой сжатие всех точек в нуле. В связи с этим кластерам будет легче переходить друг через друга, чтобы правильно расположиться в пространстве.
Вторая оптимизация называется "раннее преувеличение". В данной оптимизации на ранних итерациях [math]p_{i j}[/math] умножаются на некоторое положительное число, например на [math]4[/math]. Так как [math]q_{i j}[/math] остаются теми же самыми, они слишком маленькие, чтобы моделировать соответствующие [math]p_{i j}[/math]. Как следствие, образуются очень плотные кластера, которые широко раскиданы в пространстве низкой размерности. Это создает много пустого пространства, которое используется кластерами, чтобы легко менять и находить наилучшее взаимное расположение.

См. также

Уменьшение размерности

Примечания

Источники информации

Visualizing Data using t-SNE

[1] Нормальное распределение

[2] Расстояние Кульбака—Лейблера

[3] Целевая функция

[4] Информационная энтропия

[5] Perplexity

[6] Жесткость

[7] Распределение Стьюдента

[8] Закон обратных квадратов

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

@@ Строка 8: / Строка 8: @@
 == Стохастическое вложение соседей ==
-Пусть стоит задача вложить множество точек в пространстве высокой размерности <tex>\{x_i \mid x_i \in X\}</tex> в пространство низкой размерности. Обозначим множество точек в пространстве низкой размерности, которые получаются после вложения через <tex>\{y_i \mid y_i \in Y\}</tex>. '''Стохастическое вложение соседей''' (англ. ''Stochastic Neighbor Embedding, SNE'') конвертирует расстояния в Евклидовом пространстве высокой размерности между точками в условные вероятности <tex>p_{j|i}</tex>. <tex>p_{j|i}</tex> - вероятность, что точка <tex>x_i</tex> выберет в качестве своего соседа точку <tex>x_j</tex> среди остальных точек данных. Будем считать, что вероятность для точки <tex>x_i</tex> найти соседа падает с увеличением расстояния от точки <tex>x_i</tex> в соответствии с распределением Гаусса<ref>[https://ru.wikipedia.org/wiki/Нормальное_распределение Нормальное распределение]</ref> с нулевым [[Математическое ожидание случайной величины|математическим ожиданием]] и [[Дисперсия случайной величины|стандартным отклонением]] <tex>\sigma_i</tex>. В соответствии с этим <tex>p_{j|i}</tex> выражается как
+Пусть стоит задача вложить множество точек в пространстве высокой размерности <tex>\{x_i \mid x_i \in X\}</tex> в пространство низкой размерности. Обозначим множество точек в пространстве низкой размерности, которые получаются после вложения через <tex>\{y_i \mid y_i \in Y\}</tex>. '''Стохастическое вложение соседей''' (англ. ''Stochastic Neighbor Embedding, SNE'') конвертирует расстояния в Евклидовом пространстве высокой размерности между точками в условные вероятности <tex>p_{j|i}</tex>. <tex>p_{j|i}</tex> {{---}} вероятность, что точка <tex>x_i</tex> выберет в качестве своего соседа точку <tex>x_j</tex> среди остальных точек данных. Будем считать, что вероятность для точки <tex>x_i</tex> найти соседа падает с увеличением расстояния от точки <tex>x_i</tex> в соответствии с распределением Гаусса<ref>[https://ru.wikipedia.org/wiki/Нормальное_распределение Нормальное распределение]</ref> с нулевым [[Математическое ожидание случайной величины|математическим ожиданием]] и [[Дисперсия случайной величины|стандартным отклонением]] <tex>\sigma_i</tex>. В соответствии с этим <tex>p_{j|i}</tex> выражается как
 <tex>p_{j|i} = \frac{\exp{(-{\left\Vert x_i - x_j \right\Vert}^2/2\sigma_i^2)}}{\sum\limits_{k \neq i}\exp{({-\left\Vert x_i - x_k \right\Vert}^2/2\sigma_i^2)}}</tex>.

Стохастическое вложение соседей с t-распределением — различия между версиями

Версия 16:49, 19 января 2020

Содержание

Стохастическое вложение соседей

Физическая интерпретация

Симметричное стохастическое вложение соседей

Проблема скученности

Стохастическое вложение соседей с t-распределением

Оптимизации в стохастическом вложении соседей с t-распределением

См. также

Примечания

Источники информации

Навигация

Персональные инструменты

Пространства имён

Варианты

Просмотры

Ещё

Поиск

Навигация

Инструменты