Изменения
Нет описания правки
[[Файл:MNIST_compression_methods_comparison.png|thumb|250px|Пример работы t-SNE, Isomap, Sammon mapping, LLE на dataset-е MNIST]]
'''t-SNE (Стохастическое вложение соседей с t-распределением)''' {{-- -}} алгоритм визуализации высокоразмерных данных с помощью представления каждой точки данных в двух или трехмерном пространстве.
Данный алгоритм является модификацией алгоритма SNE, который будет описан далее.
Заметим, что данное распределение получается из тех же самых предложений, что были сделаны для высокоразмерного пространства, за исключением того, что все распределения Гаусса имеют стандартное отклонение <tex>\frac{1}{\sqrt{2}}</tex> для всех точек.
Если удастся хорошо вложить высокоразмерное пространство в низкоразмерное, должны совпасть распределения совместных вероятностей. То есть <tex>p_{i|j}</tex> должны стать похожими на <tex>q_{i|j}</tex>. В связи с этим SNE пытается уменьшить разницу в распределении вероятностей. Стандартной мерой для измерения различия вероятностей служит дивергенция КульбэкаКульбака-Лейблера<ref>[https://ru.wikipedia.org/wiki/Расстояние_Кульбака_—_Лейблера Расстояние Кульбака—Лейблера]</ref>. Определяется она так: <br />
<tex>KL(P \Vert Q) = \sum\limits_j p_j \log_2 \frac{p_j}{q_j}</tex>.
В данном случае имеем <tex>|X|</tex> распределений. Тогда целевую функцию, который будем оптимизировать, определим как сумму соответствующих дивергенций КульбэкаКульбака-Лейблера. То есть: <br />
<tex>C = \sum\limits_i KL(p_i \Vert q_i) = \sum\limits_i \sum\limits_j p_{j|i} \log_2 \frac{p_{j|i}}{q_{j|i}}</tex>.
Дивергенция КульбэкаКульбака-Лейблера не является симметричной мерой, поэтому, например, вложение близких точек в удаленные даёт гораздо большее значение ошибки, чем вложение далеких точек в близкие. Другими словами, целевая функция нацелена на сохранение локальной структуры вокруг точек.
Параметры <tex>\sigma_i</tex> подбираются следующим образом. Каждое значение параметра порождает свое распределение вероятностей <tex>P_i</tex>. Это распределение имеет энтропию <ref>[https://ru.wikipedia.org/wiki/Информационная_энтропия Информационная энтропия]</ref> <br />
<tex>H(P_i) = \sum\limits_j p_{j|i}\log_2 p_{j|i} </tex>, <br />
которая возрастает с ростом <tex>\sigma_i</tex>. В самом алгоритме <tex>\sigma_i</tex> вычисляются с помощью бинарного поиска по заранее заданной пользователем величине, называемой перплексией<ref>[https://en.wikipedia.org/wiki/Perplexity Perplexity]</ref>, которая определяется как <br />
<tex>Perp(P_i) = 2 ^ {H(P_i)}</tex>.
== Симметричный SNE ==
Следующая модификация SNE носит название '''симметричный SNE'''. Было странно, что в классическом SNE <tex>p_{j|i} \neq p_{i|j}</tex> и <tex>q_{j|i} \neq q_{i|j}</tex>. Симметричный SNE {{-- -}} попытка исправить эту ситуацию путем определения совместных вероятностей вместо условных. Теперь: <br />
<tex>C = KL(P \Vert Q) = \sum\limits_i \sum\limits_j p_{i j} \log_2 \frac {p_{i j}} {q_{i j}}</tex>.
Очевидным образом определяется <tex>q_{i j}</tex>: <br />
<tex>q_{i j} = \frac {\exp { -{\left\Vert y_i - y_j \right\Vert}^2 } } {\sum\limits_{k \neq l} \exp { -{\left\Vert y_k - y_l \right\Vert}^2 } }</tex>, <br />
но то же решение для <tex>p_{i j}</tex> привело бы к проблеме, что для выброса <tex>x_i</tex> <tex>p_{i j}</tex> будет очень маленькой для любого <tex>x_j</tex>, таким образом будет почти нулевой соответствующая дивергенция КульбэкаКульбака-Лейблера для любого распределения q_{i j}. Это означало бы, что положение точки <tex>y_i</tex> определялось бы очень неточно относительно положения других точек. Поэтому в t-SNE <tex>p_{i j}</tex> определили как: <br />
<tex>p_{i j} = \frac {p_{i|j} + p_{i|j} } {2|X|}</tex>. <br />
Очевидный плюс такого определения в том, что <tex>\sum\limits_j p_{i j} > \frac 1 {2|X|}</tex> для всех точек, что хорошо скажется на выбросах. А также теперь <tex>p_{i j} = p_{j i}</tex>, <tex>q_{i j} = q_{j i}</tex>. Авторами утверждается, что симметричный SNE вкладывает данные в низкоразмерное пространство почти также как и ассимитричный, а иногда даже лучше.
*[[Уменьшение размерности]]
== Примечания ==
<references/>
== Источники информации ==
# [http://www.jmlr.org/papers/volume9/vandermaaten08a/vandermaaten08a.pdf Visualizing Data using t-SNE]