SoftMax и SoftArgMax — различия между версиями
Betson (обсуждение | вклад) |
Betson (обсуждение | вклад) (→Связь между вариациями SoftMax) |
||
Строка 74: | Строка 74: | ||
*<tex>\log\left(\right.softArgMax_{i}\left(x_{1},\ldots,x_{n}\right)\left.\right) = x_{i} -softMax\left(x_{1},\ldots,x_{n}\right)</tex> | *<tex>\log\left(\right.softArgMax_{i}\left(x_{1},\ldots,x_{n}\right)\left.\right) = x_{i} -softMax\left(x_{1},\ldots,x_{n}\right)</tex> | ||
− | Для подсчёта, например, перекрёстной энтропии необходимо вычислить <tex>\log\left(p_{i}\right)</tex>. Последнее свойство позволяет вычислять производную от <tex>\log\left(p_{i}\right)</tex>, когда <tex>p_{i} = 0</tex>. | + | Для подсчёта, например, перекрёстной энтропии, необходимо вычислить <tex>\log\left(p_{i}\right)</tex>. Последнее свойство позволяет вычислять производную от <tex>\log\left(p_{i}\right)</tex>, когда <tex>p_{i} = 0</tex>. |
==Примечания== | ==Примечания== |
Версия 22:01, 1 июля 2022
Содержание
SoftArgMax
Постановка задачи
Пусть есть задача мягкой классификации:
Алгоритм выдает значения
, где — число классов.— уверенность алгоритма в том, что объект принадлежит классу ,
Для этих значений необходимо найти такие
, что:То есть
— распределение вероятностейДля этого выполним преобразование:
Тогда выполняется следующее:
- Модель , возвращающая , после преобразования будет возвращать и останется дифференцируемой
Пусть
, тогда:
У
такое название, так как это, по сути, гладкая аппроксимация модифицированного .Свойства SoftArgMax
- Вычисляет по вектору чисел вектор с распределением вероятностей
- Можно интерпретировать как вероятность нахождения максимума в -й координате
- Предыдущее свойство используют для устойчивости вычислений при
- — частный случай сигмоиды.
Модификация SoftArgMax
Данная модификация полезна, когда необходимо контролировать распределение вероятностей, получаемое
. Чем больше параметр , тем больше получаемые вероятности будут похожи на равномерное распределение.SoftMax
Плохой SoftMax
Зададим функцию
таким образом:
Гладкая аппроксимация максимума. Математическое ожидание или средневзвешенное, где веса — экспоненты значений соответствующих элементов. Сохраняет некоторые свойства максимума:
Заданный выше
— «плохой» в связи с тем, что мы считаем средневзвешенное значение, которое всегда будет меньше максимума, что приведёт к проблемам с поиском максимума.Хороший SoftMax
- Не сохраняется свойство
- Производная равна
В этом случае сохраняется монотонность, значит, не возникнет проблем с поиском минимума и максимума.
Связь между вариациями SoftMax
Обозначим «плохой»
как . Тогда:Для подсчёта, например, перекрёстной энтропии, необходимо вычислить
. Последнее свойство позволяет вычислять производную от , когда .Примечания
- В большинстве статей пишется , хотя вместо этого подразумевается
- можно называть также как обобщённая (многомерная) сигмоида
- является алгоритмом подсчёта весов для
Источники
- Лекция 7. Байесовские методы А. Забашта
- Лекция 7. Автоматическое дифференцирование и нейронные сети С. Муравьёв