SoftMax и SoftArgMax

Содержание

1 SoftArgMax
2 SoftMax
- 2.1 Плохой SoftMax
- 2.2 Хороший SoftMax
3 Связь между вариациями SoftMax
4 Примечания
5 Источники

SoftArgMax

Постановка задачи

Пусть есть задача мягкой классификации:

Алгоритм выдает значения [math]L_{1}, L_{2},\ldots, L_{n}[/math], где [math]n[/math] — число классов.

[math]L_{i}[/math] — уверенность алгоритма в том, что объект принадлежит классу [math]i[/math],

Для этих значений необходимо найти такие [math]p_{1},\ldots,p_{n}[/math], что:

[math]\sum_{i}p_{i}=1[/math]

То есть [math]p_{1},\ldots,p_{n}[/math] — распределение вероятностей

Для этого выполним преобразование:

Тогда выполняется следующее:

Модель [math]a[/math], возвращающая [math]L_{i}[/math], после преобразования будет возвращать [math]p_{i}[/math] и останется дифференцируемой

Пусть , тогда:

У такое название, так как это, по сути, гладкая аппроксимация модифицированного .

Свойства SoftArgMax

Вычисляет по вектору чисел вектор с распределением вероятностей
Можно интерпретировать как вероятность нахождения максимума в [math]i[/math]-й координате
Предыдущее свойство используют для устойчивости вычислений при

Модификация SoftArgMax

Данная модификация полезна, когда необходимо контролировать распределение вероятностей, получаемое . Чем больше параметр [math]t[/math], тем больше получаемые вероятности будут похожи на равномерное распределение.

SoftMax

Плохой SoftMax

Плохой SoftMax (помечен красным)

Хороший SoftMax (помечен оранжевым)

Зададим функцию таким образом:

Гладкая аппроксимация максимума. Математическое ожидание или средневзвешенное, где веса — экспоненты значений соответствующих элементов. Сохраняет некоторые свойства максимума:

Заданный выше — «плохой» в связи с тем, что мы считаем средневзвешенное значение, которое всегда будет меньше максимума, что приведёт к проблемам с поиском максимума.

Хороший SoftMax

Не сохраняется свойство
Производная равна

В этом случае сохраняется монотонность, значит, не возникнет проблем с поиском минимума и максимума.

Связь между вариациями SoftMax

Обозначим «плохой» как . Тогда:

Примечания

В большинстве статей пишется , хотя вместо этого подразумевается
можно называть также как обобщённая (многомерная) сигмоида
является алгоритмом подсчёта весов для

Источники

Лекция 7. Байесовские методы А. Забашта
Лекция 7. Автоматическое дифференцирование и нейронные сети С. Муравьёв

SoftMax и SoftArgMax

Содержание

SoftArgMax

Постановка задачи

Свойства SoftArgMax

Модификация SoftArgMax

SoftMax

Плохой SoftMax

Хороший SoftMax

Связь между вариациями SoftMax

Примечания

Источники

Навигация

Персональные инструменты

Пространства имён

Варианты

Просмотры

Ещё

Поиск

Навигация

Инструменты