Изменения

Перейти к: навигация, поиск
Проблема скученности
== Проблема скученности ==
Необходимо понимать, что невозможно абсолютно точно моделировать расстояния между точками пространства высокой размерности в низком. Например, в десятимерном пространстве существует <tex>11</tex> равноудаленных друг от друга точек, в то время как на плоскости может быть максимум <tex>3</tex> равноудаленные точки. При использовании обычного SNE возникает следующая проблема, которая вытекает из разного распределения вероятностей в пространствах высокой и низкой размерностей. Пусть есть некоторое пространство высокой размерности. Пусть в нем точки <tex>x_i</tex> равномерно распределены в нем вокруг некоторой точки <tex>x_ix_0</tex> в некотором шаре с радиусом <tex>R</tex>. Заметим, что, чем больше размерность пространства, тем больше точек попадет рядом с границей шара, поэтому количество близких к <tex>x_0</tex> точек с ростом размерности будет убывать. Теперь попытаемся вложить данное пространство в плоскость. Пусть точки <tex>x_i</tex> перешли в точки <tex>y_i</tex> на плоскости. Заметим, что область пространства на плоскостиесли попытаться вложить точки <tex>x_i</tex> в круг радиуса <tex>R</tex> с центром в точке <tex>y_0</tex> образуется большое количество маленьких расстояний между точками <tex>y_i</tex>, доступная для размещения умеренно-удаленных точек пространства высокой размерности относительно области пространства, доступное для размещения близких точек пространства высокой размерности достаточно мала по сравнению с тем же самым т.к. объем сферы в исходном высокомерном пространстве (нужно сравнить отношения объемов сфер в этих пространствах)несопоставим с площадью круга на плоскости. Таким образом, если мы хотим правильно моделировать маленькие расстояния на плоскости и не иметь их между умеренно-удаленными точками пространства высокой размерности, следовало бы поместить умеренно-удаленные от точки подальше от <tex>x_0</tex> точки <tex>x_i</tex>ещё дальше, чем в исходномпространстве. В Но в таком случае , вспоминая физическую интерпретацию, на эти слишком далекие соответствующие им точки на плоскости <tex>y_i</tex> будет действовать небольшая сила притяжения от точки к точке <tex>x_iy_0</tex>. Но, принимая Принимая во внимание остальные точки, таких сил что точек наподобие <tex>x_0</tex> в реальной выборке данных будет достаточно много, их пружины вместе образуют силу, что сожмет все точки и будет мешать образованию кластеров.
== Стохастическое вложение соседей с t-распределением ==
Анонимный участник

Навигация