Изменения

Перейти к: навигация, поиск
Проблема скученности
Необходимо понимать, что невозможно абсолютно точно моделировать расстояния между точками пространства высокой размерности в низком. Например, в десятимерном пространстве существует <tex>11</tex> равноудаленных друг от друга точек, в то время как на плоскости может быть максимум <tex>3</tex> равноудаленные точки.
При использовании обычного SNE возникает проблема, которая вытекает из разного распределения вероятностей в пространствах высокой и низкой размерностей. Пусть есть некоторое пространство высокой размерности. Пусть точки <tex>x_i</tex> равномерно распределены в нем вокруг точки <tex>x_0</tex> в некотором шаре с радиусом <tex>R</tex>. Заметим, что, чем больше размерность пространства, тем больше точек попадет рядом с границей шара, поэтому количество близких к <tex>x_0</tex> точек с ростом размерности будет убывать. Теперь попытаемся вложить данное пространство в плоскость. Пусть точки <tex>x_i</tex> перешли в точки <tex>y_i</tex> на плоскости. Заметим, что если попытаться вложить точки <tex>x_i</tex> в круг радиуса <tex>R</tex> с центром в точке <tex>y_0</tex> образуется большое количество маленьких расстояний между точками <tex>y_i</tex>, т.к. объем сферы в высокомерном пространстве несопоставим с площадью круга на плоскости. Таким образом, если мы хотим правильно моделировать маленькие расстояния на плоскости, следовало бы поместить удаленные от <tex>x_0</tex> точки <tex>x_i</tex> ещё дальше, чем в исходном пространстве. Но в таком случае, вспоминая физическую интерпретацию, на соответствующие им точки <tex>y_i</tex> будет действовать небольшая сила притяжения к точке <tex>y_0</tex>. Принимая во внимание, что точек наподобие <tex>x_0</tex> в реальной выборке данных будет достаточно много, их пружины вместе образуют силу, что сожмет все точки в нуле и будет мешать образованию кластеров.
== Стохастическое вложение соседей с t-распределением ==
Анонимный участник

Навигация