Soft-Max и Soft-Arg-Max — различия между версиями
(→Soft-Arg-Max) |
|||
Строка 19: | Строка 19: | ||
*'''soft-arg-max'''<tex>\left ( x - c,y-c,z-c\right )=</tex> '''soft-arg-max'''<tex>\left ( x,y,z\right )</tex> | *'''soft-arg-max'''<tex>\left ( x - c,y-c,z-c\right )=</tex> '''soft-arg-max'''<tex>\left ( x,y,z\right )</tex> | ||
*Предыдущее свойство используют для устойчивости вычислений. При <tex>c=max\left ( x,y,z \right )</tex> | *Предыдущее свойство используют для устойчивости вычислений. При <tex>c=max\left ( x,y,z \right )</tex> | ||
+ | |||
+ | ===Модификация soft-arg-max=== | ||
+ | '''soft-arg-max'''<tex>_{t}\left(x\right)=\frac{\exp\left(x_{i}\right)}{\sum\exp\left(\frac{x_{j}}{t}\right)}</tex> | ||
==Soft-Max== | ==Soft-Max== |
Версия 17:21, 1 июля 2022
Soft-Max и Soft-Arg-Max.
Содержание
Soft-Arg-Max
Пусть есть задача мягкой классификации: Алгоритм выдает значения L1, L2, ... Ln, где n - число классов. Li - уверенность алгоритма в том, что объект принадлежит классу i; -oo <=Li <= +oo. Нужно для этих значений найти такие p1,...pn, что pi из [0, 1], а сумма pi = 1, то есть p1..pn - распределение вероятностей. Для этого возьмём экспоненту от L1..Ln; Получим числа от [0;+oo] и нормируем их: pi = exp(Li)/Sum(exp(Li)) Выполняется следующее: Li <= Lj => Pi <= Pj
Есть модель a, возвращающая Li. Необходимо сделать так, чтобы a возвращала pi, при этом оставаясь дифференциируемой.
soft-arg-max , гдеСвойства soft-arg-max
- Вычисляет по вектору чисел вектор с распределением вероятностей.
- Можно интерпретировать как вероятность нахождения максимума в -й координате.
- soft-arg-max soft-arg-max
- Предыдущее свойство используют для устойчивости вычислений. При
Модификация soft-arg-max
soft-arg-max
Soft-Max
Плохой Soft-Max
Зададим функцию soft-max таким образом:
soft-max
soft-arg-maxГладкая аппроксимация максимума. Математическое ожидание или средневзвешенное, где веса — экспоненты значений соответствующих элементов. Сохраняет некоторые свойства максимума:
- soft-max
- soft-max soft-max
Заданный выше soft-max — "плохой" в связи с тем, что мы считаем средневзвешенное значение, которое всегда будет меньше максимума, что приведёт к проблемам с поиском максимума.
Хороший Soft-Max
soft-max
- Не сохраняет свойство soft-max
- Производная равна soft-arg-max
В этом случае сохраняется монотонность, значит, не возникнет проблем с поиском минимума и максимума.
Связь между вариациями Soft-Max
Обозначим "плохой" soft-max как bad-soft-max. Тогда:
- bad-soft-max soft-arg-max
- soft-max soft-arg-max
- soft-arg-max soft-max
Примечание
- В большинстве статей пишется soft-max, хотя вместо этого подразумевается soft-arg-max.
- soft-arg-max можно называть также как обобщённая (многомерная) сигмоида
- soft-arg-max является алгоритмом подсчёта весов для soft-max