SoftMax и SoftArgMax — различия между версиями

Текущая версия на 19:27, 4 сентября 2022

Содержание

1 SoftArgMax
2 SoftMax
- 2.1 Плохой SoftMax
- 2.2 Хороший SoftMax
3 Связь между вариациями SoftMax
4 Примечания
5 Источники

SoftArgMax

Постановка задачи

Пусть есть задача мягкой классификации:

Алгоритм выдает значения [math]L_{1}, L_{2},\ldots, L_{n}[/math], где [math]n[/math] — число классов.

[math]L_{i}[/math] — уверенность алгоритма в том, что объект принадлежит классу [math]i[/math],

Для этих значений необходимо найти такие [math]p_{1},\ldots,p_{n}[/math], что:

[math]\sum_{i}p_{i}=1[/math]

То есть [math]p_{1},\ldots,p_{n}[/math] — распределение вероятностей

Для этого выполним преобразование:

Тогда выполняется следующее:

Модель [math]a[/math], возвращающая [math]L_{i}[/math], после преобразования будет возвращать [math]p_{i}[/math] и останется дифференцируемой

Пусть , тогда:

У [math]softArgMax[/math] такое название, так как это, по сути, гладкая аппроксимация модифицированного [math]argMax[/math].

Свойства SoftArgMax

Вычисляет по вектору чисел вектор с распределением вероятностей
Можно интерпретировать как вероятность нахождения максимума в [math]i[/math]-й координате
Предыдущее свойство используют для устойчивости вычислений при
[math]softArgMax[/math] — частный случай сигмоиды.

Модификация SoftArgMax

Данная модификация полезна, когда необходимо контролировать распределение вероятностей, получаемое [math]softArgMax[/math]. Чем больше параметр [math]t[/math], тем больше получаемые вероятности будут похожи на равномерное распределение.

SoftMax

Плохой SoftMax

Плохой SoftMax (помечен красным)

Хороший SoftMax (помечен оранжевым)

Зададим функцию [math]softMax[/math] таким образом:

Гладкая аппроксимация максимума. Математическое ожидание или средневзвешенное, где веса — экспоненты значений соответствующих элементов. Сохраняет некоторые свойства максимума:

Заданный выше [math]softMax[/math] — «плохой» в связи с тем, что мы считаем средневзвешенное значение, которое всегда будет меньше максимума, что приведёт к проблемам с поиском максимума.

Хороший SoftMax

Не сохраняется свойство
Производная равна [math]softArgMax[/math]

В этом случае сохраняется монотонность, значит, не возникнет проблем с поиском минимума и максимума.

Связь между вариациями SoftMax

Обозначим «плохой» [math]softMax[/math] как [math]badSoftMax[/math]. Тогда:

Для подсчёта, например, перекрёстной энтропии, необходимо вычислить [math]\log\left(p_{i}\right)[/math]. Последнее свойство позволяет вычислять производную от [math]\log\left(p_{i}\right)[/math], когда [math]p_{i} = 0[/math].

Примечания

В большинстве статей пишется [math]softMax[/math], хотя вместо этого подразумевается [math]softArgMax[/math]
[math]softArgMax[/math] можно называть также как обобщённая (многомерная) сигмоида
[math]softArgMax[/math] является алгоритмом подсчёта весов для [math]softMax[/math]

Источники

Лекция 7. Байесовские методы А. Забашта
Лекция 7. Автоматическое дифференцирование и нейронные сети С. Муравьёв

@@ Строка 21: / Строка 21: @@
 *<tex>L_{i} \leqslant L_{j} \implies p_{i} \leqslant p_{j}</tex>
 *Модель <tex>a</tex>, возвращающая <tex>L_{i}</tex>, после преобразования будет возвращать <tex>p_{i}</tex> и останется дифференцируемой
-*<tex>p =\boldsymbol{\mathbf{soft{\text -}arg{\text -}max}}\left ( L \right )</tex>
+*<tex>p =softArgMax\left ( L \right )</tex>
-Пусть <tex>y = \boldsymbol{\mathbf{soft{\text -}arg{\text -}max}}\left ( x \right )</tex>, тогда:
+Пусть <tex>y = softArgMax\left ( x \right )</tex>, тогда:
 <tex>\frac{\partial y_{i}}{\partial x_{j}} = \begin{cases}
@@ Строка 30: / Строка 30: @@
 \end{cases} = y_{i}\left ( I\left [ i = j \right ] - y_{j}\right )</tex>
-У <tex>\boldsymbol{\mathbf{soft{\text -}arg{\text -}max}}</tex> такое название, так как это, по сути, гладкая аппроксимация модифицированного <tex>\boldsymbol{\mathbf{arg{\text -}max}}</tex>.
+У <tex>softArgMax</tex> такое название, так как это, по сути, гладкая аппроксимация модифицированного <tex>argMax</tex>.
 ===Свойства SoftArgMax===
 *Вычисляет по вектору чисел вектор с распределением вероятностей
 *Можно интерпретировать как вероятность нахождения максимума в <tex>i</tex>-й координате
-*<tex>\boldsymbol{\mathbf{soft{\text -}arg{\text -}max}}\left ( x - c,y-c,z-c\right )=\boldsymbol{\mathbf{soft{\text -}arg{\text -}max}}\left ( x,y,z\right )</tex>
+*<tex>softArgMax\left ( x - c,y-c,z-c\right )=softArgMax\left ( x,y,z\right )</tex>
 *Предыдущее свойство используют для устойчивости вычислений при <tex>c=max\left ( x,y,z \right )</tex>
-*<tex>soft{\text -}arg{\text -}max</tex> {{---}} частный случай сигмоиды. <tex>soft{\text -}arg{\text -}max\left(y, 0\right) = \sigma \left(y\right)</tex>
+*<tex>softArgMax</tex> {{---}} частный случай сигмоиды. <tex>softArgMax\left(y, 0\right) = \sigma \left(y\right)</tex>
 ===Модификация SoftArgMax===
-<tex>\boldsymbol{\mathbf{soft{\text -}arg{\text -}max}}_{t}\left(x\right)=\frac{\exp\left(\frac{x_{i}}{t}\right)}{\sum\exp\left(\frac{x_{j}}{t}\right)}</tex>
+<tex>softArgMax_{t}\left(x\right)=\frac{\exp\left(\frac{x_{i}}{t}\right)}{\sum\exp\left(\frac{x_{j}}{t}\right)}</tex>
-Данная модификация полезна, когда необходимо контролировать распределение вероятностей, получаемое <tex>\boldsymbol{\mathbf{soft{\text -}arg{\text -}max}}</tex>. Чем больше параметр <tex>t</tex>, тем больше получаемые вероятности будут похожи на равномерное распределение.
+Данная модификация полезна, когда необходимо контролировать распределение вероятностей, получаемое <tex>softArgMax</tex>. Чем больше параметр <tex>t</tex>, тем больше получаемые вероятности будут похожи на равномерное распределение.
 ==SoftMax==
@@ Строка 48: / Строка 48: @@
 [[File:BadSoftMax.png|200px|thumb|Плохой SoftMax (помечен красным)]]
 [[File:GoodSoftMax.png|200px|thumb|Хороший SoftMax (помечен оранжевым)]]
-Зададим функцию <tex>\boldsymbol{\mathbf{soft{\text -}max}}</tex> таким образом:
+Зададим функцию <tex>softMax</tex> таким образом:
-<tex>\boldsymbol{\mathbf{soft{\text -}max}}\left ( x_{1},\ldots,x_{n}\right ) = \frac{x_{i}~\cdot~\exp \left ( x_{i} \right )}{\sum_{j}\exp \left( x_{j} \right )} = \left \langle x,  \right .\boldsymbol{\mathbf{soft{\text -}arg{\text -}max}}\left . \left (x_{1},\ldots,x_{n} \right )  \right \rangle</tex>
+<tex>softMax\left ( x_{1},\ldots,x_{n}\right ) = \frac{x_{i}~\cdot~\exp \left ( x_{i} \right )}{\sum_{j}\exp \left( x_{j} \right )} = \left \langle x,  \right .softArgMax\left . \left (x_{1},\ldots,x_{n} \right )  \right \rangle</tex>
 Гладкая аппроксимация максимума. Математическое ожидание или средневзвешенное, где веса {{---}} экспоненты значений соответствующих элементов. Сохраняет некоторые свойства максимума:
-*<tex>\boldsymbol{\mathbf{soft{\text -}max}}\left ( a,a,a\right ) = a</tex>
+*<tex>softMax\left ( a,a,a\right ) = a</tex>
-*<tex>\boldsymbol{\mathbf{soft{\text -}max}}\left ( x+a,y+a,z+a\right ) =\boldsymbol{\mathbf{soft{\text -}max}}\left ( x,y,z\right ) + a</tex>
+*<tex>softMax\left ( x+a,y+a,z+a\right ) =softMax\left ( x,y,z\right ) + a</tex>
-Заданный выше <tex>\boldsymbol{\mathbf{soft{\text -}max}}</tex> {{---}} «плохой» в связи с тем, что мы считаем средневзвешенное значение, которое всегда будет меньше максимума, что приведёт к проблемам с поиском максимума.
+Заданный выше <tex>softMax</tex> {{---}} «плохой» в связи с тем, что мы считаем средневзвешенное значение, которое всегда будет меньше максимума, что приведёт к проблемам с поиском максимума.
 ===Хороший SoftMax===
-<tex>\boldsymbol{\mathbf{soft{\text -}max}}\left ( x_{1},\ldots,x_{n}\right ) = \log\left(\sum_{i}\exp\left(x_{i}\right)\right)</tex>
+<tex>softMax\left ( x_{1},\ldots,x_{n}\right ) = \log\left(\sum_{i}\exp\left(x_{i}\right)\right)</tex>
-*Не сохраняется свойство <tex>\boldsymbol{\mathbf{soft{\text -}max}}\left(a,a,a\right)=a</tex>
+*Не сохраняется свойство <tex>softMax\left(a,a,a\right)=a</tex>
-*Производная равна <tex>\boldsymbol{\mathbf{soft{\text -}arg{\text -}max}}</tex>
+*Производная равна <tex>softArgMax</tex>
 В этом случае сохраняется монотонность, значит, не возникнет проблем с поиском минимума и максимума.
 ==Связь между вариациями SoftMax==
-Обозначим «плохой» <tex>\boldsymbol{\mathbf{soft{\text -}max}}</tex> как <tex>\boldsymbol{\mathbf{bad{\text -}soft{\text -}max}}</tex>. Тогда:
+Обозначим «плохой» <tex>softMax</tex> как <tex>badSoftMax</tex>. Тогда:
-*<tex>\boldsymbol{\mathbf{bad{\text -}soft{\text -}max}}\left(x_{1},\ldots,x_{n}\right)=\left \langle x,  \right .\boldsymbol{\mathbf{soft{\text -}arg{\text -}max}}\left . \left (x_{1},\ldots,x_{n} \right )  \right \rangle</tex>
+*<tex>badSoftMax\left(x_{1},\ldots,x_{n}\right)=\left \langle x,  \right .softArgMax\left . \left (x_{1},\ldots,x_{n} \right )  \right \rangle</tex>
-*<tex>\nabla\boldsymbol{\mathbf{soft{\text -}max}}\left(x_{1},\ldots,x_{n}\right)=\boldsymbol{\mathbf{soft{\text -}arg{\text -}max}}\left(x_{1},\ldots,x_{n}\right)</tex>
+*<tex>\nabla softMax\left(x_{1},\ldots,x_{n}\right)=softArgMax\left(x_{1},\ldots,x_{n}\right)</tex>
-*<tex>\log\left(\right.\boldsymbol{\mathbf{soft{\text -}arg{\text -}max}}_{i}\left(x_{1},\ldots,x_{n}\right)\left.\right) = x_{i} -\boldsymbol{\mathbf{soft{\text -}max}}\left(x_{1},\ldots,x_{n}\right)</tex>
+*<tex>\log\left(\right.softArgMax_{i}\left(x_{1},\ldots,x_{n}\right)\left.\right) = x_{i} -softMax\left(x_{1},\ldots,x_{n}\right)</tex>
-Последнее свойство позволяет вычислять производную от <tex>\log\left(\right.soft{\text -}arg{\text -}max_{i}\left(x_{1},\ldots,x_{n}\right)\left.\right)</tex>, избегая сингулярности при делении на ноль.
+Для подсчёта, например, перекрёстной энтропии, необходимо вычислить <tex>\log\left(p_{i}\right)</tex>. Последнее свойство позволяет вычислять производную от <tex>\log\left(p_{i}\right)</tex>, когда <tex>p_{i} = 0</tex>.
 ==Примечания==
-*В большинстве статей пишется <tex>\boldsymbol{\mathbf{soft{\text -}max}}</tex>, хотя вместо этого подразумевается <tex>\boldsymbol{\mathbf{soft{\text -}arg{\text -}max}}</tex>
+*В большинстве статей пишется <tex>softMax</tex>, хотя вместо этого подразумевается <tex>softArgMax</tex>
-*<tex>\boldsymbol{\mathbf{soft{\text -}arg{\text -}max}}</tex> можно называть также как обобщённая (многомерная) сигмоида
+*<tex>softArgMax</tex> можно называть также как обобщённая (многомерная) сигмоида
-*<tex>\boldsymbol{\mathbf{soft{\text -}arg{\text -}max}}</tex> является алгоритмом подсчёта весов для <tex>\boldsymbol{\mathbf{soft{\text -}max}}</tex>
+*<tex>softArgMax</tex> является алгоритмом подсчёта весов для <tex>softMax</tex>
 ==Источники==
 # [https://www.youtube.com/watch?v=mlPNUbaphZA&ab_channel=MLLabITMO Лекция 7. Байесовские методы А. Забашта]

SoftMax и SoftArgMax — различия между версиями

Текущая версия на 19:27, 4 сентября 2022

Содержание

SoftArgMax

Постановка задачи

Свойства SoftArgMax

Модификация SoftArgMax

SoftMax

Плохой SoftMax

Хороший SoftMax

Связь между вариациями SoftMax

Примечания

Источники

Навигация

Персональные инструменты

Пространства имён

Варианты

Просмотры

Ещё

Поиск

Навигация

Инструменты