Soft-Max и Soft-Arg-Max — различия между версиями
Betson (обсуждение | вклад)  | 
				Betson (обсуждение | вклад)   (→Связь между вариациями Soft-Max)  | 
				||
| Строка 69: | Строка 69: | ||
Обозначим "плохой" '''soft-max''' как '''bad-soft-max'''. Тогда:  | Обозначим "плохой" '''soft-max''' как '''bad-soft-max'''. Тогда:  | ||
| − | *  | + | *<tex>\boldsymbol{\mathbf{bad{\text -}soft{\text -}max}}\left(x_{1},\ldots,x_{n}\right)=\left \langle x,  \right .\boldsymbol{\mathbf{soft{\text -}arg{\text -}max}}\left . \left (x_{1},\ldots,x_{n} \right )  \right \rangle</tex>  | 
| − | *<tex>\nabla  | + | *<tex>\nabla\boldsymbol{\mathbf{soft{\text -}max}}\left(x_{1},\ldots,x_{n}\right)=\boldsymbol{\mathbf{soft{\text -}arg{\text -}max}}\left(x_{1},\ldots,x_{n}\right)</tex>  | 
| − | *<tex>\log\left(\right.  | + | *<tex>\log\left(\right.\boldsymbol{\mathbf{soft{\text -}arg{\text -}max}}_{i}\left(x_{1},\ldots,x_{n}\right)\left.\right) = x_{i} -\boldsymbol{\mathbf{soft{\text -}max}}\left(x_{1},\ldots,x_{n}\right)</tex>  | 
==Примечания==  | ==Примечания==  | ||
Версия 19:46, 1 июля 2022
Содержание
Soft-Arg-Max
Постановка задачи
Пусть есть задача мягкой классификации:
Алгоритм выдает значения , где — число классов.
— уверенность алгоритма в том, что объект принадлежит классу ,
Для этих значений необходимо найти такие , что:
То есть — распределение вероятностей
Для этого выполним преобразование:
Тогда выполняется следующее:
- Модель , возвращающая , после преобразования будет возвращать и останется дифференцируемой
 
Пусть , тогда:
У soft-arg-max такое название, так как это, по сути, гладкая аппроксимация модифицированного arg-max.
Свойства soft-arg-max
- Вычисляет по вектору чисел вектор с распределением вероятностей
 - Можно интерпретировать как вероятность нахождения максимума в -й координате
 - Предыдущее свойство используют для устойчивости вычислений при
 
Модификация soft-arg-max
Данная модификация полезна, когда необходимо контролировать распределение вероятностей, получаемое soft-arg-max. Чем больше параметр , тем больше получаемые вероятности будут похожи на равномерное распределение.
Soft-Max
Плохой Soft-Max
Зададим функцию soft-max таким образом:
Гладкая аппроксимация максимума. Математическое ожидание или средневзвешенное, где веса — экспоненты значений соответствующих элементов. Сохраняет некоторые свойства максимума:
Заданный выше soft-max — "плохой" в связи с тем, что мы считаем средневзвешенное значение, которое всегда будет меньше максимума, что приведёт к проблемам с поиском максимума.
Хороший Soft-Max
- Не сохраняется свойство
 - Производная равна soft-arg-max
 
В этом случае сохраняется монотонность, значит, не возникнет проблем с поиском минимума и максимума.
Связь между вариациями Soft-Max
Обозначим "плохой" soft-max как bad-soft-max. Тогда:
Примечания
- В большинстве статей пишется soft-max, хотя вместо этого подразумевается soft-arg-max
 - soft-arg-max можно называть также как обобщённая (многомерная) сигмоида
 - soft-arg-max является алгоритмом подсчёта весов для soft-max
 
Источники
- Лекция 7. Байесовские методы А. Забашта
 - Лекция 7. Автоматическое дифференцирование и нейронные сети С. Муравьёв