SoftMax и SoftArgMax

SoftArgMax

Постановка задачи

Пусть есть задача мягкой классификации:

Алгоритм выдает значения [math]L_{1}, L_{2},\ldots, L_{n}[/math], где [math]n[/math] — число классов.

[math]L_{i}[/math] — уверенность алгоритма в том, что объект принадлежит классу [math]i[/math],

Для этих значений необходимо найти такие [math]p_{1},\ldots,p_{n}[/math], что:

[math]\sum_{i}p_{i}=1[/math]

То есть [math]p_{1},\ldots,p_{n}[/math] — распределение вероятностей

Для этого выполним преобразование:

Тогда выполняется следующее:

Модель [math]a[/math], возвращающая [math]L_{i}[/math], после преобразования будет возвращать [math]p_{i}[/math] и останется дифференцируемой

Пусть , тогда:

У такое название, так как это, по сути, гладкая аппроксимация модифицированного [math]arg{\text -}max[/math].

Свойства SoftArgMax

Вычисляет по вектору чисел вектор с распределением вероятностей
Можно интерпретировать как вероятность нахождения максимума в [math]i[/math]-й координате
Предыдущее свойство используют для устойчивости вычислений при
— частный случай сигмоиды.

Модификация SoftArgMax

Данная модификация полезна, когда необходимо контролировать распределение вероятностей, получаемое . Чем больше параметр [math]t[/math], тем больше получаемые вероятности будут похожи на равномерное распределение.

SoftMax

Плохой SoftMax

Плохой SoftMax (помечен красным)

Хороший SoftMax (помечен оранжевым)

Зададим функцию [math]soft{\text -}max[/math] таким образом:

Гладкая аппроксимация максимума. Математическое ожидание или средневзвешенное, где веса — экспоненты значений соответствующих элементов. Сохраняет некоторые свойства максимума:

Заданный выше [math]soft{\text -}max[/math] — «плохой» в связи с тем, что мы считаем средневзвешенное значение, которое всегда будет меньше максимума, что приведёт к проблемам с поиском максимума.

Хороший SoftMax

Не сохраняется свойство
Производная равна

В этом случае сохраняется монотонность, значит, не возникнет проблем с поиском минимума и максимума.

Связь между вариациями SoftMax

Обозначим «плохой» [math]soft{\text -}max[/math] как . Тогда:

Для подсчёта, например, перекрёстной энтропии необходимо вычислить [math]\log\left(p_{i}\right)[/math]. Последнее свойство позволяет вычислять производную от [math]\log\left(p_{i}\right)[/math], когда [math]p_{i} = 0[/math].

Примечания

В большинстве статей пишется [math]soft{\text -}max[/math], хотя вместо этого подразумевается
можно называть также как обобщённая (многомерная) сигмоида
является алгоритмом подсчёта весов для [math]soft{\text -}max[/math]

Источники

Лекция 7. Байесовские методы А. Забашта
Лекция 7. Автоматическое дифференцирование и нейронные сети С. Муравьёв

SoftMax и SoftArgMax

SoftArgMax

Постановка задачи

Свойства SoftArgMax

Модификация SoftArgMax

SoftMax

Плохой SoftMax

Хороший SoftMax

Связь между вариациями SoftMax

Примечания

Источники

Навигация

Персональные инструменты

Пространства имён

Варианты

Просмотры

Ещё

Поиск

Навигация

Инструменты