Викиконспекты - Вклад участника [ru]

http://neerc.ifmo.ru/wiki/api.php?action=feedcontributions&feedformat=atom&user=5.44.169.198&* Викиконспекты - Вклад участника [ru] 2026-05-19T18:00:43Z Вклад участника MediaWiki 1.30.0 http://neerc.ifmo.ru/wiki/index.php?title=Soft-Max_%D0%B8_Soft-Arg-Max&diff=82598 Soft-Max и Soft-Arg-Max 2022-07-01T15:15:43Z

<p>5.44.169.198: /* Soft-Max */</p> <hr /> <div>==Soft-Arg-Max==<br /> ===Постановка задачи===<br /> Пусть есть задача мягкой классификации:<br /> <br /> Алгоритм выдает значения <tex>L_{1}, L_{2},\ldots, L_{n}</tex>, где <tex>n</tex> {{---}} число классов.<br /> <br /> <tex>L_{i}</tex> {{---}} уверенность алгоритма в том, что объект принадлежит классу <tex>i</tex>, <tex>L_{i} \in \left [ -\infty, +\infty\right ]</tex><br /> <br /> Для этих значений необходимо найти такие <tex>p_{1},\ldots,p_{n}</tex>, что:<br /> <br /> *<tex>p_{i} \in \left [ 0, 1\right ]</tex><br /> *<tex>\sum_{i}p_{i}=1</tex><br /> То есть <tex>p_{1},\ldots,p_{n}</tex> {{---}} распределение вероятностей<br /> <br /> Для этого выполним преобразование:<br /> <br /> <tex>p_{i} = \frac{\exp\left(L_{i}\right)}{\sum_{i}\exp\left(L_{i}\right)}</tex><br /> <br /> Тогда выполняется следующее:<br /> <br /> *<tex>L_{i} \leqslant L_{j} \implies p_{i} \leqslant p_{j}</tex><br /> *Модель <tex>a</tex>, возвращающая <tex>L_{i}</tex>, после преобразования будет возвращать <tex>p_{i}</tex> и останется дифференцируемой<br /> *<tex>p =</tex> '''soft-arg-max'''<tex>\left ( L \right )</tex><br /> <br /> Пусть <tex>y = </tex> '''soft-arg-max'''<tex>\left ( x \right )</tex>, тогда:<br /> <br /> <tex>\frac{\partial y_{i}}{\partial x_{j}} = \begin{cases}<br /> &y_{i}\left ( 1 - y_{j} \right ),~i = j \\ <br /> &-y_{i}\cdot y_{j},~~~~~~i \neq j <br /> \end{cases} = y_{i}\left ( I\left [ i = j \right ] - y_{j}\right )</tex><br /> <br /> ===Свойства soft-arg-max===<br /> *Вычисляет по вектору чисел вектор с распределением вероятностей<br /> *Можно интерпретировать как вероятность нахождения максимума в <tex>i</tex>-й координате<br /> *'''soft-arg-max'''<tex>\left ( x - c,y-c,z-c\right )=</tex> '''soft-arg-max'''<tex>\left ( x,y,z\right )</tex><br /> *Предыдущее свойство используют для устойчивости вычислений при <tex>c=max\left ( x,y,z \right )</tex><br /> <br /> ===Модификация soft-arg-max===<br /> '''soft-arg-max'''<tex>_{t}\left(x\right)=\frac{\exp\left(\frac{x_{i}}{t}\right)}{\sum\exp\left(\frac{x_{j}}{t}\right)}</tex><br /> <br /> Данная модификация полезна, когда необходимо контролировать распределение вероятностей, получаемое '''soft-arg-max'''. Чем больше параметр <tex>t</tex>, тем больше получаемые вероятности будут похожи на равномерное распределение.<br /> <br /> ==Soft-Max==<br /> ===Плохой Soft-Max===<br /> [[File:Декорреляция.png|300px|thumb|рис.1 Плохой Soft-Max]]<br /> Зададим функцию '''soft-max''' таким образом:<br /> <br /> '''soft-max'''<tex>\left ( x_{1},\ldots,x_{n}\right ) = \frac{x_{i}~\cdot~\exp \left ( x_{i} \right )}{\sum_{j}\exp \left( x_{j} \right )} = \left \langle x, \right .</tex>'''soft-arg-max'''<tex>\left . \left (x_{1},\ldots,x_{n} \right ) \right \rangle</tex><br /> <br /> Гладкая аппроксимация максимума. Математическое ожидание или средневзвешенное, где веса {{---}} экспоненты значений соответствующих элементов. Сохраняет некоторые свойства максимума:<br /> <br /> *'''soft-max'''<tex>\left ( a,a,a\right ) = a</tex><br /> *'''soft-max'''<tex>\left ( x+a,y+a,z+a\right ) =</tex> '''soft-max'''<tex>\left ( x,y,z\right ) + a</tex><br /> <br /> Заданный выше '''soft-max''' {{---}} "плохой" в связи с тем, что мы считаем средневзвешенное значение, которое всегда будет меньше максимума, что приведёт к проблемам с поиском максимума.<br /> <br /> ===Хороший Soft-Max===<br /> '''soft-max'''<tex>\left ( x_{1},\ldots,x_{n}\right ) = \log\left(\sum_{i}\exp\left(x_{i}\right)\right)</tex><br /> <br /> *Не сохраняет свойство '''soft-max'''<tex>\left(a,a,a\right)=a</tex><br /> *Производная равна '''soft-arg-max'''<br /> <br /> В этом случае сохраняется монотонность, значит, не возникнет проблем с поиском минимума и максимума.<br /> <br /> ==Связь между вариациями Soft-Max==<br /> Обозначим "плохой" '''soft-max''' как '''bad-soft-max'''. Тогда:<br /> <br /> *'''bad-soft-max'''<tex>\left(x_{1},\ldots,x_{n}\right)=\left \langle x, \right .</tex>'''soft-arg-max'''<tex>\left . \left (x_{1},\ldots,x_{n} \right ) \right \rangle</tex><br /> *<tex>\nabla</tex>'''soft-max'''<tex>\left(x_{1},\ldots,x_{n}\right)=</tex>'''soft-arg-max'''<tex>\left(x_{1},\ldots,x_{n}\right)</tex><br /> *<tex>\log\left(\right.</tex>'''soft-arg-max'''<tex>_{i}\left(x_{1},\ldots,x_{n}\right)\left.\right) = x_{i} -</tex>'''soft-max'''<tex>\left(x_{1},\ldots,x_{n}\right)</tex><br /> ==Примечания==<br /> *В большинстве статей пишется '''soft-max''', хотя вместо этого подразумевается '''soft-arg-max'''<br /> *'''soft-arg-max''' можно называть также как обобщённая (многомерная) сигмоида<br /> *'''soft-arg-max''' является алгоритмом подсчёта весов для '''soft-max'''</div>

5.44.169.198 http://neerc.ifmo.ru/wiki/index.php?title=Soft-Max_%D0%B8_Soft-Arg-Max&diff=82597 Soft-Max и Soft-Arg-Max 2022-07-01T15:14:15Z

<p>5.44.169.198: </p> <hr /> <div>==Soft-Arg-Max==<br /> ===Постановка задачи===<br /> Пусть есть задача мягкой классификации:<br /> <br /> Алгоритм выдает значения <tex>L_{1}, L_{2},\ldots, L_{n}</tex>, где <tex>n</tex> {{---}} число классов.<br /> <br /> <tex>L_{i}</tex> {{---}} уверенность алгоритма в том, что объект принадлежит классу <tex>i</tex>, <tex>L_{i} \in \left [ -\infty, +\infty\right ]</tex><br /> <br /> Для этих значений необходимо найти такие <tex>p_{1},\ldots,p_{n}</tex>, что:<br /> <br /> *<tex>p_{i} \in \left [ 0, 1\right ]</tex><br /> *<tex>\sum_{i}p_{i}=1</tex><br /> То есть <tex>p_{1},\ldots,p_{n}</tex> {{---}} распределение вероятностей<br /> <br /> Для этого выполним преобразование:<br /> <br /> <tex>p_{i} = \frac{\exp\left(L_{i}\right)}{\sum_{i}\exp\left(L_{i}\right)}</tex><br /> <br /> Тогда выполняется следующее:<br /> <br /> *<tex>L_{i} \leqslant L_{j} \implies p_{i} \leqslant p_{j}</tex><br /> *Модель <tex>a</tex>, возвращающая <tex>L_{i}</tex>, после преобразования будет возвращать <tex>p_{i}</tex> и останется дифференцируемой<br /> *<tex>p =</tex> '''soft-arg-max'''<tex>\left ( L \right )</tex><br /> <br /> Пусть <tex>y = </tex> '''soft-arg-max'''<tex>\left ( x \right )</tex>, тогда:<br /> <br /> <tex>\frac{\partial y_{i}}{\partial x_{j}} = \begin{cases}<br /> &y_{i}\left ( 1 - y_{j} \right ),~i = j \\ <br /> &-y_{i}\cdot y_{j},~~~~~~i \neq j <br /> \end{cases} = y_{i}\left ( I\left [ i = j \right ] - y_{j}\right )</tex><br /> <br /> ===Свойства soft-arg-max===<br /> *Вычисляет по вектору чисел вектор с распределением вероятностей<br /> *Можно интерпретировать как вероятность нахождения максимума в <tex>i</tex>-й координате<br /> *'''soft-arg-max'''<tex>\left ( x - c,y-c,z-c\right )=</tex> '''soft-arg-max'''<tex>\left ( x,y,z\right )</tex><br /> *Предыдущее свойство используют для устойчивости вычислений при <tex>c=max\left ( x,y,z \right )</tex><br /> <br /> ===Модификация soft-arg-max===<br /> '''soft-arg-max'''<tex>_{t}\left(x\right)=\frac{\exp\left(\frac{x_{i}}{t}\right)}{\sum\exp\left(\frac{x_{j}}{t}\right)}</tex><br /> <br /> Данная модификация полезна, когда необходимо контролировать распределение вероятностей, получаемое '''soft-arg-max'''. Чем больше параметр <tex>t</tex>, тем больше получаемые вероятности будут похожи на равномерное распределение.<br /> <br /> ==Soft-Max==<br /> ===Плохой Soft-Max===<br /> Зададим функцию '''soft-max''' таким образом:<br /> <br /> '''soft-max'''<tex>\left ( x_{1},\ldots,x_{n}\right ) = \frac{x_{i}~\cdot~\exp \left ( x_{i} \right )}{\sum_{j}\exp \left( x_{j} \right )} = \left \langle x, \right .</tex>'''soft-arg-max'''<tex>\left . \left (x_{1},\ldots,x_{n} \right ) \right \rangle</tex><br /> <br /> Гладкая аппроксимация максимума. Математическое ожидание или средневзвешенное, где веса {{---}} экспоненты значений соответствующих элементов. Сохраняет некоторые свойства максимума:<br /> <br /> *'''soft-max'''<tex>\left ( a,a,a\right ) = a</tex><br /> *'''soft-max'''<tex>\left ( x+a,y+a,z+a\right ) =</tex> '''soft-max'''<tex>\left ( x,y,z\right ) + a</tex><br /> <br /> Заданный выше '''soft-max''' {{---}} "плохой" в связи с тем, что мы считаем средневзвешенное значение, которое всегда будет меньше максимума, что приведёт к проблемам с поиском максимума.<br /> <br /> ===Хороший Soft-Max===<br /> '''soft-max'''<tex>\left ( x_{1},\ldots,x_{n}\right ) = \log\left(\sum_{i}\exp\left(x_{i}\right)\right)</tex><br /> <br /> *Не сохраняет свойство '''soft-max'''<tex>\left(a,a,a\right)=a</tex><br /> *Производная равна '''soft-arg-max'''<br /> <br /> В этом случае сохраняется монотонность, значит, не возникнет проблем с поиском минимума и максимума.<br /> <br /> ==Связь между вариациями Soft-Max==<br /> Обозначим "плохой" '''soft-max''' как '''bad-soft-max'''. Тогда:<br /> <br /> *'''bad-soft-max'''<tex>\left(x_{1},\ldots,x_{n}\right)=\left \langle x, \right .</tex>'''soft-arg-max'''<tex>\left . \left (x_{1},\ldots,x_{n} \right ) \right \rangle</tex><br /> *<tex>\nabla</tex>'''soft-max'''<tex>\left(x_{1},\ldots,x_{n}\right)=</tex>'''soft-arg-max'''<tex>\left(x_{1},\ldots,x_{n}\right)</tex><br /> *<tex>\log\left(\right.</tex>'''soft-arg-max'''<tex>_{i}\left(x_{1},\ldots,x_{n}\right)\left.\right) = x_{i} -</tex>'''soft-max'''<tex>\left(x_{1},\ldots,x_{n}\right)</tex><br /> ==Примечания==<br /> *В большинстве статей пишется '''soft-max''', хотя вместо этого подразумевается '''soft-arg-max'''<br /> *'''soft-arg-max''' можно называть также как обобщённая (многомерная) сигмоида<br /> *'''soft-arg-max''' является алгоритмом подсчёта весов для '''soft-max'''</div>

5.44.169.198 http://neerc.ifmo.ru/wiki/index.php?title=Soft-Max_%D0%B8_Soft-Arg-Max&diff=82596 Soft-Max и Soft-Arg-Max 2022-07-01T15:13:08Z

<p>5.44.169.198: </p> <hr /> <div>==Soft-Arg-Max==<br /> ===Постановка задачи===<br /> Пусть есть задача мягкой классификации:<br /> <br /> Алгоритм выдает значения <tex>L_{1}, L_{2},\ldots, L_{n}</tex>, где <tex>n</tex> {{---}} число классов.<br /> <br /> <tex>L_{i}</tex> {{---}} уверенность алгоритма в том, что объект принадлежит классу <tex>i</tex>, <tex>L_{i} \in \left [ -\infty, +\infty\right ]</tex><br /> <br /> Для этих значений необходимо найти такие <tex>p_{1},\ldots,p_{n}</tex>, что:<br /> <br /> *<tex>p_{i} \in \left [ 0, 1\right ]</tex>.<br /> *<tex>\sum_{i}p_{i}=1</tex>.<br /> То есть <tex>p_{1},\ldots,p_{n}</tex> {{---}} распределение вероятностей.<br /> <br /> Для этого выполним преобразование:<br /> <br /> <tex>p_{i} = \frac{\exp\left(L_{i}\right)}{\sum_{i}\exp\left(L_{i}\right)}</tex><br /> <br /> Тогда выполняется следующее:<br /> <br /> *<tex>L_{i} \leqslant L_{j} \implies p_{i} \leqslant p_{j}</tex>.<br /> *Модель <tex>a</tex>, возвращающая <tex>L_{i}</tex>, после преобразования будет возвращать <tex>p_{i}</tex> и останется дифференцируемой.<br /> *<tex>p =</tex> '''soft-arg-max'''<tex>\left ( L \right )</tex>.<br /> <br /> Пусть <tex>y = </tex> '''soft-arg-max'''<tex>\left ( x \right )</tex>, тогда:<br /> <br /> <tex>\frac{\partial y_{i}}{\partial x_{j}} = \begin{cases}<br /> &y_{i}\left ( 1 - y_{j} \right ),~i = j \\ <br /> &-y_{i}\cdot y_{j},~~~~~~i \neq j <br /> \end{cases} = y_{i}\left ( I\left [ i = j \right ] - y_{j}\right )</tex><br /> <br /> ===Свойства soft-arg-max===<br /> *Вычисляет по вектору чисел вектор с распределением вероятностей.<br /> *Можно интерпретировать как вероятность нахождения максимума в <tex>i</tex>-й координате.<br /> *'''soft-arg-max'''<tex>\left ( x - c,y-c,z-c\right )=</tex> '''soft-arg-max'''<tex>\left ( x,y,z\right )</tex>.<br /> *Предыдущее свойство используют для устойчивости вычислений при <tex>c=max\left ( x,y,z \right )</tex>.<br /> <br /> ===Модификация soft-arg-max===<br /> '''soft-arg-max'''<tex>_{t}\left(x\right)=\frac{\exp\left(\frac{x_{i}}{t}\right)}{\sum\exp\left(\frac{x_{j}}{t}\right)}</tex><br /> <br /> Данная модификация полезна, когда необходимо контролировать распределение вероятностей, получаемое '''soft-arg-max'''. Чем больше параметр <tex>t</tex>, тем больше получаемые вероятности будут похожи на равномерное распределение.<br /> <br /> ==Soft-Max==<br /> ===Плохой Soft-Max===<br /> Зададим функцию '''soft-max''' таким образом:<br /> <br /> '''soft-max'''<tex>\left ( x_{1},\ldots,x_{n}\right ) = \frac{x_{i}~\cdot~\exp \left ( x_{i} \right )}{\sum_{j}\exp \left( x_{j} \right )} = \left \langle x, \right .</tex>'''soft-arg-max'''<tex>\left . \left (x_{1},\ldots,x_{n} \right ) \right \rangle</tex><br /> <br /> Гладкая аппроксимация максимума. Математическое ожидание или средневзвешенное, где веса {{---}} экспоненты значений соответствующих элементов. Сохраняет некоторые свойства максимума:<br /> <br /> *'''soft-max'''<tex>\left ( a,a,a\right ) = a</tex>.<br /> *'''soft-max'''<tex>\left ( x+a,y+a,z+a\right ) =</tex> '''soft-max'''<tex>\left ( x,y,z\right ) + a</tex>.<br /> <br /> Заданный выше '''soft-max''' {{---}} "плохой" в связи с тем, что мы считаем средневзвешенное значение, которое всегда будет меньше максимума, что приведёт к проблемам с поиском максимума.<br /> <br /> ===Хороший Soft-Max===<br /> '''soft-max'''<tex>\left ( x_{1},\ldots,x_{n}\right ) = \log\left(\sum_{i}\exp\left(x_{i}\right)\right)</tex><br /> <br /> *Не сохраняет свойство '''soft-max'''<tex>\left(a,a,a\right)=a</tex><br /> *Производная равна '''soft-arg-max'''<br /> <br /> В этом случае сохраняется монотонность, значит, не возникнет проблем с поиском минимума и максимума.<br /> <br /> ==Связь между вариациями Soft-Max==<br /> Обозначим "плохой" '''soft-max''' как '''bad-soft-max'''. Тогда:<br /> <br /> *'''bad-soft-max'''<tex>\left(x_{1},\ldots,x_{n}\right)=\left \langle x, \right .</tex>'''soft-arg-max'''<tex>\left . \left (x_{1},\ldots,x_{n} \right ) \right \rangle</tex>.<br /> *<tex>\nabla</tex>'''soft-max'''<tex>\left(x_{1},\ldots,x_{n}\right)=</tex>'''soft-arg-max'''<tex>\left(x_{1},\ldots,x_{n}\right)</tex>.<br /> *<tex>\log\left(\right.</tex>'''soft-arg-max'''<tex>_{i}\left(x_{1},\ldots,x_{n}\right)\left.\right) = x_{i} -</tex>'''soft-max'''<tex>\left(x_{1},\ldots,x_{n}\right)</tex>.<br /> ==Примечания==<br /> *В большинстве статей пишется '''soft-max''', хотя вместо этого подразумевается '''soft-arg-max'''.<br /> *'''soft-arg-max''' можно называть также как обобщённая (многомерная) сигмоида.<br /> *'''soft-arg-max''' является алгоритмом подсчёта весов для '''soft-max'''.</div>

5.44.169.198 http://neerc.ifmo.ru/wiki/index.php?title=Soft-Max_%D0%B8_Soft-Arg-Max&diff=82595 Soft-Max и Soft-Arg-Max 2022-07-01T15:12:16Z

<p>5.44.169.198: /* Свойства soft-arg-max */</p> <hr /> <div>==Soft-Arg-Max==<br /> ===Постановка задачи===<br /> Пусть есть задача мягкой классификации:<br /> <br /> Алгоритм выдает значения <tex>L_{1}, L_{2},\ldots, L_{n}</tex>, где <tex>n</tex> {{---}} число классов.<br /> <br /> <tex>L_{i}</tex> {{---}} уверенность алгоритма в том, что объект принадлежит классу <tex>i</tex>, <tex>L_{i} \in \left [ -\infty, +\infty\right ]</tex><br /> <br /> Для этих значений необходимо найти такие <tex>p_{1},\ldots,p_{n}</tex>, что:<br /> <br /> *<tex>p_{i} \in \left [ 0, 1\right ]</tex><br /> *<tex>\sum_{i}p_{i}=1</tex><br /> То есть <tex>p_{1},\ldots,p_{n}</tex> {{---}} распределение вероятностей.<br /> <br /> Для этого выполним преобразование:<br /> <br /> <tex>p_{i} = \frac{\exp\left(L_{i}\right)}{\sum_{i}\exp\left(L_{i}\right)}</tex><br /> <br /> Тогда выполняется следующее:<br /> <br /> *<tex>L_{i} \leqslant L_{j} \implies p_{i} \leqslant p_{j}</tex><br /> *Модель <tex>a</tex>, возвращающая <tex>L_{i}</tex>, после преобразования будет возвращать <tex>p_{i}</tex> и останется дифференцируемой.<br /> *<tex>p =</tex> '''soft-arg-max'''<tex>\left ( L \right )</tex><br /> <br /> Пусть <tex>y = </tex> '''soft-arg-max'''<tex>\left ( x \right )</tex>, тогда:<br /> <br /> <tex>\frac{\partial y_{i}}{\partial x_{j}} = \begin{cases}<br /> &y_{i}\left ( 1 - y_{j} \right ),~i = j \\ <br /> &-y_{i}\cdot y_{j},~~~~~~i \neq j <br /> \end{cases} = y_{i}\left ( I\left [ i = j \right ] - y_{j}\right )</tex><br /> <br /> ===Свойства soft-arg-max===<br /> *Вычисляет по вектору чисел вектор с распределением вероятностей.<br /> *Можно интерпретировать как вероятность нахождения максимума в <tex>i</tex>-й координате.<br /> *'''soft-arg-max'''<tex>\left ( x - c,y-c,z-c\right )=</tex> '''soft-arg-max'''<tex>\left ( x,y,z\right )</tex>.<br /> *Предыдущее свойство используют для устойчивости вычислений при <tex>c=max\left ( x,y,z \right )</tex>.<br /> <br /> ===Модификация soft-arg-max===<br /> '''soft-arg-max'''<tex>_{t}\left(x\right)=\frac{\exp\left(\frac{x_{i}}{t}\right)}{\sum\exp\left(\frac{x_{j}}{t}\right)}</tex><br /> <br /> Данная модификация полезна, когда необходимо контролировать распределение вероятностей, получаемое '''soft-arg-max'''. Чем больше параметр <tex>t</tex>, тем больше получаемые вероятности будут похожи на равномерное распределение.<br /> <br /> ==Soft-Max==<br /> ===Плохой Soft-Max===<br /> Зададим функцию '''soft-max''' таким образом:<br /> <br /> '''soft-max'''<tex>\left ( x_{1},\ldots,x_{n}\right ) = \frac{x_{i}~\cdot~\exp \left ( x_{i} \right )}{\sum_{j}\exp \left( x_{j} \right )} = \left \langle x, \right .</tex>'''soft-arg-max'''<tex>\left . \left (x_{1},\ldots,x_{n} \right ) \right \rangle</tex><br /> <br /> Гладкая аппроксимация максимума. Математическое ожидание или средневзвешенное, где веса {{---}} экспоненты значений соответствующих элементов. Сохраняет некоторые свойства максимума:<br /> <br /> *'''soft-max'''<tex>\left ( a,a,a\right ) = a</tex><br /> *'''soft-max'''<tex>\left ( x+a,y+a,z+a\right ) =</tex> '''soft-max'''<tex>\left ( x,y,z\right ) + a</tex><br /> <br /> Заданный выше '''soft-max''' {{---}} "плохой" в связи с тем, что мы считаем средневзвешенное значение, которое всегда будет меньше максимума, что приведёт к проблемам с поиском максимума.<br /> <br /> ===Хороший Soft-Max===<br /> '''soft-max'''<tex>\left ( x_{1},\ldots,x_{n}\right ) = \log\left(\sum_{i}\exp\left(x_{i}\right)\right)</tex><br /> <br /> *Не сохраняет свойство '''soft-max'''<tex>\left(a,a,a\right)=a</tex><br /> *Производная равна '''soft-arg-max'''<br /> <br /> В этом случае сохраняется монотонность, значит, не возникнет проблем с поиском минимума и максимума.<br /> <br /> ==Связь между вариациями Soft-Max==<br /> Обозначим "плохой" '''soft-max''' как '''bad-soft-max'''. Тогда:<br /> <br /> *'''bad-soft-max'''<tex>\left(x_{1},\ldots,x_{n}\right)=\left \langle x, \right .</tex>'''soft-arg-max'''<tex>\left . \left (x_{1},\ldots,x_{n} \right ) \right \rangle</tex><br /> *<tex>\nabla</tex>'''soft-max'''<tex>\left(x_{1},\ldots,x_{n}\right)=</tex>'''soft-arg-max'''<tex>\left(x_{1},\ldots,x_{n}\right)</tex><br /> *<tex>\log\left(\right.</tex>'''soft-arg-max'''<tex>_{i}\left(x_{1},\ldots,x_{n}\right)\left.\right) = x_{i} -</tex>'''soft-max'''<tex>\left(x_{1},\ldots,x_{n}\right)</tex><br /> ==Примечания==<br /> *В большинстве статей пишется '''soft-max''', хотя вместо этого подразумевается '''soft-arg-max'''.<br /> *'''soft-arg-max''' можно называть также как обобщённая (многомерная) сигмоида<br /> *'''soft-arg-max''' является алгоритмом подсчёта весов для '''soft-max'''</div>

5.44.169.198 http://neerc.ifmo.ru/wiki/index.php?title=Soft-Max_%D0%B8_Soft-Arg-Max&diff=82594 Soft-Max и Soft-Arg-Max 2022-07-01T15:06:58Z

<p>5.44.169.198: /* Постановка задачи */</p> <hr /> <div>==Soft-Arg-Max==<br /> ===Постановка задачи===<br /> Пусть есть задача мягкой классификации:<br /> <br /> Алгоритм выдает значения <tex>L_{1}, L_{2},\ldots, L_{n}</tex>, где <tex>n</tex> {{---}} число классов.<br /> <br /> <tex>L_{i}</tex> {{---}} уверенность алгоритма в том, что объект принадлежит классу <tex>i</tex>, <tex>L_{i} \in \left [ -\infty, +\infty\right ]</tex><br /> <br /> Для этих значений необходимо найти такие <tex>p_{1},\ldots,p_{n}</tex>, что:<br /> <br /> *<tex>p_{i} \in \left [ 0, 1\right ]</tex><br /> *<tex>\sum_{i}p_{i}=1</tex><br /> То есть <tex>p_{1},\ldots,p_{n}</tex> {{---}} распределение вероятностей.<br /> <br /> Для этого выполним преобразование:<br /> <br /> <tex>p_{i} = \frac{\exp\left(L_{i}\right)}{\sum_{i}\exp\left(L_{i}\right)}</tex><br /> <br /> Тогда выполняется следующее:<br /> <br /> *<tex>L_{i} \leqslant L_{j} \implies p_{i} \leqslant p_{j}</tex><br /> *Модель <tex>a</tex>, возвращающая <tex>L_{i}</tex>, после преобразования будет возвращать <tex>p_{i}</tex> и останется дифференцируемой.<br /> *<tex>p =</tex> '''soft-arg-max'''<tex>\left ( L \right )</tex><br /> <br /> Пусть <tex>y = </tex> '''soft-arg-max'''<tex>\left ( x \right )</tex>, тогда:<br /> <br /> <tex>\frac{\partial y_{i}}{\partial x_{j}} = \begin{cases}<br /> &y_{i}\left ( 1 - y_{j} \right ),~i = j \\ <br /> &-y_{i}\cdot y_{j},~~~~~~i \neq j <br /> \end{cases} = y_{i}\left ( I\left [ i = j \right ] - y_{j}\right )</tex><br /> <br /> ===Свойства soft-arg-max===<br /> *Вычисляет по вектору чисел вектор с распределением вероятностей.<br /> *Можно интерпретировать как вероятность нахождения максимума в <tex>i</tex>-й координате.<br /> *'''soft-arg-max'''<tex>\left ( x - c,y-c,z-c\right )=</tex> '''soft-arg-max'''<tex>\left ( x,y,z\right )</tex><br /> *Предыдущее свойство используют для устойчивости вычислений. При <tex>c=max\left ( x,y,z \right )</tex><br /> <br /> ===Модификация soft-arg-max===<br /> '''soft-arg-max'''<tex>_{t}\left(x\right)=\frac{\exp\left(\frac{x_{i}}{t}\right)}{\sum\exp\left(\frac{x_{j}}{t}\right)}</tex><br /> <br /> Данная модификация полезна, когда необходимо контролировать распределение вероятностей, получаемое '''soft-arg-max'''. Чем больше параметр <tex>t</tex>, тем больше получаемые вероятности будут похожи на равномерное распределение.<br /> <br /> ==Soft-Max==<br /> ===Плохой Soft-Max===<br /> Зададим функцию '''soft-max''' таким образом:<br /> <br /> '''soft-max'''<tex>\left ( x_{1},\ldots,x_{n}\right ) = \frac{x_{i}~\cdot~\exp \left ( x_{i} \right )}{\sum_{j}\exp \left( x_{j} \right )} = \left \langle x, \right .</tex>'''soft-arg-max'''<tex>\left . \left (x_{1},\ldots,x_{n} \right ) \right \rangle</tex><br /> <br /> Гладкая аппроксимация максимума. Математическое ожидание или средневзвешенное, где веса {{---}} экспоненты значений соответствующих элементов. Сохраняет некоторые свойства максимума:<br /> <br /> *'''soft-max'''<tex>\left ( a,a,a\right ) = a</tex><br /> *'''soft-max'''<tex>\left ( x+a,y+a,z+a\right ) =</tex> '''soft-max'''<tex>\left ( x,y,z\right ) + a</tex><br /> <br /> Заданный выше '''soft-max''' {{---}} "плохой" в связи с тем, что мы считаем средневзвешенное значение, которое всегда будет меньше максимума, что приведёт к проблемам с поиском максимума.<br /> <br /> ===Хороший Soft-Max===<br /> '''soft-max'''<tex>\left ( x_{1},\ldots,x_{n}\right ) = \log\left(\sum_{i}\exp\left(x_{i}\right)\right)</tex><br /> <br /> *Не сохраняет свойство '''soft-max'''<tex>\left(a,a,a\right)=a</tex><br /> *Производная равна '''soft-arg-max'''<br /> <br /> В этом случае сохраняется монотонность, значит, не возникнет проблем с поиском минимума и максимума.<br /> <br /> ==Связь между вариациями Soft-Max==<br /> Обозначим "плохой" '''soft-max''' как '''bad-soft-max'''. Тогда:<br /> <br /> *'''bad-soft-max'''<tex>\left(x_{1},\ldots,x_{n}\right)=\left \langle x, \right .</tex>'''soft-arg-max'''<tex>\left . \left (x_{1},\ldots,x_{n} \right ) \right \rangle</tex><br /> *<tex>\nabla</tex>'''soft-max'''<tex>\left(x_{1},\ldots,x_{n}\right)=</tex>'''soft-arg-max'''<tex>\left(x_{1},\ldots,x_{n}\right)</tex><br /> *<tex>\log\left(\right.</tex>'''soft-arg-max'''<tex>_{i}\left(x_{1},\ldots,x_{n}\right)\left.\right) = x_{i} -</tex>'''soft-max'''<tex>\left(x_{1},\ldots,x_{n}\right)</tex><br /> ==Примечания==<br /> *В большинстве статей пишется '''soft-max''', хотя вместо этого подразумевается '''soft-arg-max'''.<br /> *'''soft-arg-max''' можно называть также как обобщённая (многомерная) сигмоида<br /> *'''soft-arg-max''' является алгоритмом подсчёта весов для '''soft-max'''</div>

5.44.169.198 http://neerc.ifmo.ru/wiki/index.php?title=Soft-Max_%D0%B8_Soft-Arg-Max&diff=82593 Soft-Max и Soft-Arg-Max 2022-07-01T15:05:53Z

<p>5.44.169.198: /* Soft-Arg-Max */</p> <hr /> <div>==Soft-Arg-Max==<br /> ===Постановка задачи===<br /> Пусть есть задача мягкой классификации:<br /> <br /> Алгоритм выдает значения <tex>L_{1}, L_{2},\ldots, L_{n}</tex>, где <tex>n</tex> {{---}} число классов.<br /> <br /> <tex>L_{i}</tex> {{---}} уверенность алгоритма в том, что объект принадлежит классу <tex>i</tex>, <tex>L_{i} \in \left [ -\infty, +\infty\right ]</tex><br /> <br /> Для этих значений необходимо найти такие <tex>p_{1},\ldots,p_{n}</tex>, что:<br /> <br /> *<tex>p_{i} \in \left [ 0, 1\right ]</tex><br /> *<tex>\sum_{i}p_{i}=1</tex><br /> То есть <tex>p_{1},\ldots,p_{n}</tex> {{---}} распределение вероятностей.<br /> <br /> Для этого выполним преобразование:<br /> <br /> <tex>p_{i} = \frac{\exp\left(L_{i}\right)}{\sum_{i}\left(\exp\left(L_{i}\right)\right)}</tex><br /> <br /> Тогда выполняется следующее:<br /> <br /> *<tex>L_{i} \leqslant L_{j} \implies p_{i} \leqslant p_{j}</tex><br /> *Модель <tex>a</tex>, возвращающая <tex>L_{i}</tex>, после преобразования будет возвращать <tex>p_{i}</tex> и останется дифференцируемой.<br /> *<tex>p =</tex> '''soft-arg-max'''<tex>\left ( L \right )</tex><br /> <br /> Пусть <tex>y = </tex> '''soft-arg-max'''<tex>\left ( x \right )</tex>, тогда:<br /> <br /> <tex>\frac{\partial y_{i}}{\partial x_{j}} = \begin{cases}<br /> &y_{i}\left ( 1 - y_{j} \right ),~i = j \\ <br /> &-y_{i}\cdot y_{j},~~~~~~i \neq j <br /> \end{cases} = y_{i}\left ( I\left [ i = j \right ] - y_{j}\right )</tex><br /> <br /> ===Свойства soft-arg-max===<br /> *Вычисляет по вектору чисел вектор с распределением вероятностей.<br /> *Можно интерпретировать как вероятность нахождения максимума в <tex>i</tex>-й координате.<br /> *'''soft-arg-max'''<tex>\left ( x - c,y-c,z-c\right )=</tex> '''soft-arg-max'''<tex>\left ( x,y,z\right )</tex><br /> *Предыдущее свойство используют для устойчивости вычислений. При <tex>c=max\left ( x,y,z \right )</tex><br /> <br /> ===Модификация soft-arg-max===<br /> '''soft-arg-max'''<tex>_{t}\left(x\right)=\frac{\exp\left(\frac{x_{i}}{t}\right)}{\sum\exp\left(\frac{x_{j}}{t}\right)}</tex><br /> <br /> Данная модификация полезна, когда необходимо контролировать распределение вероятностей, получаемое '''soft-arg-max'''. Чем больше параметр <tex>t</tex>, тем больше получаемые вероятности будут похожи на равномерное распределение.<br /> <br /> ==Soft-Max==<br /> ===Плохой Soft-Max===<br /> Зададим функцию '''soft-max''' таким образом:<br /> <br /> '''soft-max'''<tex>\left ( x_{1},\ldots,x_{n}\right ) = \frac{x_{i}~\cdot~\exp \left ( x_{i} \right )}{\sum_{j}\exp \left( x_{j} \right )} = \left \langle x, \right .</tex>'''soft-arg-max'''<tex>\left . \left (x_{1},\ldots,x_{n} \right ) \right \rangle</tex><br /> <br /> Гладкая аппроксимация максимума. Математическое ожидание или средневзвешенное, где веса {{---}} экспоненты значений соответствующих элементов. Сохраняет некоторые свойства максимума:<br /> <br /> *'''soft-max'''<tex>\left ( a,a,a\right ) = a</tex><br /> *'''soft-max'''<tex>\left ( x+a,y+a,z+a\right ) =</tex> '''soft-max'''<tex>\left ( x,y,z\right ) + a</tex><br /> <br /> Заданный выше '''soft-max''' {{---}} "плохой" в связи с тем, что мы считаем средневзвешенное значение, которое всегда будет меньше максимума, что приведёт к проблемам с поиском максимума.<br /> <br /> ===Хороший Soft-Max===<br /> '''soft-max'''<tex>\left ( x_{1},\ldots,x_{n}\right ) = \log\left(\sum_{i}\exp\left(x_{i}\right)\right)</tex><br /> <br /> *Не сохраняет свойство '''soft-max'''<tex>\left(a,a,a\right)=a</tex><br /> *Производная равна '''soft-arg-max'''<br /> <br /> В этом случае сохраняется монотонность, значит, не возникнет проблем с поиском минимума и максимума.<br /> <br /> ==Связь между вариациями Soft-Max==<br /> Обозначим "плохой" '''soft-max''' как '''bad-soft-max'''. Тогда:<br /> <br /> *'''bad-soft-max'''<tex>\left(x_{1},\ldots,x_{n}\right)=\left \langle x, \right .</tex>'''soft-arg-max'''<tex>\left . \left (x_{1},\ldots,x_{n} \right ) \right \rangle</tex><br /> *<tex>\nabla</tex>'''soft-max'''<tex>\left(x_{1},\ldots,x_{n}\right)=</tex>'''soft-arg-max'''<tex>\left(x_{1},\ldots,x_{n}\right)</tex><br /> *<tex>\log\left(\right.</tex>'''soft-arg-max'''<tex>_{i}\left(x_{1},\ldots,x_{n}\right)\left.\right) = x_{i} -</tex>'''soft-max'''<tex>\left(x_{1},\ldots,x_{n}\right)</tex><br /> ==Примечания==<br /> *В большинстве статей пишется '''soft-max''', хотя вместо этого подразумевается '''soft-arg-max'''.<br /> *'''soft-arg-max''' можно называть также как обобщённая (многомерная) сигмоида<br /> *'''soft-arg-max''' является алгоритмом подсчёта весов для '''soft-max'''</div>

5.44.169.198 http://neerc.ifmo.ru/wiki/index.php?title=Soft-Max_%D0%B8_Soft-Arg-Max&diff=82592 Soft-Max и Soft-Arg-Max 2022-07-01T15:04:52Z

<p>5.44.169.198: /* Soft-Arg-Max */</p> <hr /> <div>==Soft-Arg-Max==<br /> ===Постановка задачи===<br /> Пусть есть задача мягкой классификации:<br /> <br /> Алгоритм выдает значения <tex>L_{1}, L_{2},\ldots, L_{n}</tex>, где <tex>n</tex> {{---}} число классов.<br /> <br /> <tex>L_{i}</tex> {{---}} уверенность алгоритма в том, что объект принадлежит классу <tex>i</tex>, <tex>L_{i} \in \left [ -\infty, +\infty\right ]</tex><br /> <br /> Для этих значений необходимо найти такие <tex>p_{1},\ldots,p_{n}</tex>, что:<br /> <br /> *<tex>p_{i} \in \left [ 0, 1\right ]</tex><br /> *<tex>\sum_{i}p_{i}=1</tex><br /> То есть <tex>p_{1},\ldots,p_{n}</tex> {{---}} распределение вероятностей.<br /> <br /> Для этого выполним преобразование:<br /> <br /> <tex>p_{i} = \frac{\exp\left(L_{i}\right)}{\sum_{i}\left(\exp\left(L_{i}\right)\right)}</tex><br /> <br /> Тогда выполняется следующее:<br /> <br /> *<tex>L_{i} \leqslant L_{j} \implies p_{i} \leqslant p_{j}</tex><br /> *Модель <tex>a</tex>, возвращающая <tex>L_{i}</tex>, после преобразования будет возвращать <tex>p_{i}</tex> и останется дифференцируемой.<br /> *p = '''soft-arg-max'''<tex>\left ( L \right )</tex><br /> <br /> <tex>y = </tex> '''soft-arg-max'''<tex>\left ( x \right )</tex>, где <tex>y_{i} = \frac{\exp\left ( x_{i} \right )}{\sum_{j}\exp\left ( x_{i} \right )}</tex><br /> <br /> <tex>\frac{\partial y_{i}}{\partial x_{j}} = \begin{cases}<br /> &y_{i}\left ( 1 - y_{j} \right ),~i = j \\ <br /> &-y_{i}\cdot y_{j},~~~~~~i \neq j <br /> \end{cases} = y_{i}\left ( I\left [ i = j \right ] - y_{j}\right )</tex><br /> <br /> ===Свойства soft-arg-max===<br /> *Вычисляет по вектору чисел вектор с распределением вероятностей.<br /> *Можно интерпретировать как вероятность нахождения максимума в <tex>i</tex>-й координате.<br /> *'''soft-arg-max'''<tex>\left ( x - c,y-c,z-c\right )=</tex> '''soft-arg-max'''<tex>\left ( x,y,z\right )</tex><br /> *Предыдущее свойство используют для устойчивости вычислений. При <tex>c=max\left ( x,y,z \right )</tex><br /> <br /> ===Модификация soft-arg-max===<br /> '''soft-arg-max'''<tex>_{t}\left(x\right)=\frac{\exp\left(\frac{x_{i}}{t}\right)}{\sum\exp\left(\frac{x_{j}}{t}\right)}</tex><br /> <br /> Данная модификация полезна, когда необходимо контролировать распределение вероятностей, получаемое '''soft-arg-max'''. Чем больше параметр <tex>t</tex>, тем больше получаемые вероятности будут похожи на равномерное распределение.<br /> <br /> ==Soft-Max==<br /> ===Плохой Soft-Max===<br /> Зададим функцию '''soft-max''' таким образом:<br /> <br /> '''soft-max'''<tex>\left ( x_{1},\ldots,x_{n}\right ) = \frac{x_{i}~\cdot~\exp \left ( x_{i} \right )}{\sum_{j}\exp \left( x_{j} \right )} = \left \langle x, \right .</tex>'''soft-arg-max'''<tex>\left . \left (x_{1},\ldots,x_{n} \right ) \right \rangle</tex><br /> <br /> Гладкая аппроксимация максимума. Математическое ожидание или средневзвешенное, где веса {{---}} экспоненты значений соответствующих элементов. Сохраняет некоторые свойства максимума:<br /> <br /> *'''soft-max'''<tex>\left ( a,a,a\right ) = a</tex><br /> *'''soft-max'''<tex>\left ( x+a,y+a,z+a\right ) =</tex> '''soft-max'''<tex>\left ( x,y,z\right ) + a</tex><br /> <br /> Заданный выше '''soft-max''' {{---}} "плохой" в связи с тем, что мы считаем средневзвешенное значение, которое всегда будет меньше максимума, что приведёт к проблемам с поиском максимума.<br /> <br /> ===Хороший Soft-Max===<br /> '''soft-max'''<tex>\left ( x_{1},\ldots,x_{n}\right ) = \log\left(\sum_{i}\exp\left(x_{i}\right)\right)</tex><br /> <br /> *Не сохраняет свойство '''soft-max'''<tex>\left(a,a,a\right)=a</tex><br /> *Производная равна '''soft-arg-max'''<br /> <br /> В этом случае сохраняется монотонность, значит, не возникнет проблем с поиском минимума и максимума.<br /> <br /> ==Связь между вариациями Soft-Max==<br /> Обозначим "плохой" '''soft-max''' как '''bad-soft-max'''. Тогда:<br /> <br /> *'''bad-soft-max'''<tex>\left(x_{1},\ldots,x_{n}\right)=\left \langle x, \right .</tex>'''soft-arg-max'''<tex>\left . \left (x_{1},\ldots,x_{n} \right ) \right \rangle</tex><br /> *<tex>\nabla</tex>'''soft-max'''<tex>\left(x_{1},\ldots,x_{n}\right)=</tex>'''soft-arg-max'''<tex>\left(x_{1},\ldots,x_{n}\right)</tex><br /> *<tex>\log\left(\right.</tex>'''soft-arg-max'''<tex>_{i}\left(x_{1},\ldots,x_{n}\right)\left.\right) = x_{i} -</tex>'''soft-max'''<tex>\left(x_{1},\ldots,x_{n}\right)</tex><br /> ==Примечания==<br /> *В большинстве статей пишется '''soft-max''', хотя вместо этого подразумевается '''soft-arg-max'''.<br /> *'''soft-arg-max''' можно называть также как обобщённая (многомерная) сигмоида<br /> *'''soft-arg-max''' является алгоритмом подсчёта весов для '''soft-max'''</div>

5.44.169.198 http://neerc.ifmo.ru/wiki/index.php?title=Soft-Max_%D0%B8_Soft-Arg-Max&diff=82591 Soft-Max и Soft-Arg-Max 2022-07-01T15:00:00Z

<p>5.44.169.198: /* Постановка задачи */</p> <hr /> <div>==Soft-Arg-Max==<br /> ===Постановка задачи===<br /> Пусть есть задача мягкой классификации:<br /> <br /> Алгоритм выдает значения <tex>L_{1}, L_{2},\ldots, L_{n}</tex>, где <tex>n</tex> {{---}} число классов.<br /> <br /> <tex>L_{i}</tex> {{---}} уверенность алгоритма в том, что объект принадлежит классу <tex>i</tex>, <tex>L_{i} \in \left [ -\infty, +\infty\right ]</tex><br /> <br /> Для этих значений необходимо найти такие <tex>p_{1},\ldots,p_{n}</tex>, что:<br /> <br /> *<tex>p_{i} \in \left [ 0, 1\right ]</tex><br /> *<tex>\sum_{i}p_{i}=1</tex><br /> То есть <tex>p_{1},\ldots,p_{n}</tex> {{---}} распределение вероятностей.<br /> <br /> Для этого выполним преобразование:<br /> <br /> <tex>p_{i} = \frac{\exp\left(L_{i}\right)}{\sum_{i}\left(\exp\left(L_{i}\right)\right)}</tex><br /> <br /> Тогда выполняется следующее:<br /> <br /> *<tex>L_{i} \leqslant L_{j} \implies p_{i} \leqslant p_{j}</tex><br /> *Модель <tex>a</tex>, возвращающая <tex>L_{i}</tex>, после преобразования будет возвращать <tex>p_{i}</tex> и останется дифференцируемой.<br /> <br /> Тогда:<br /> <br /> <tex>y = </tex> '''soft-arg-max'''<tex>\left ( x \right )</tex>, где <tex>y_{i} = \frac{\exp\left ( x_{i} \right )}{\sum_{j}\exp\left ( x_{i} \right )}</tex><br /> <br /> <tex>\frac{\partial y_{i}}{\partial x_{j}} = \begin{cases}<br /> &y_{i}\left ( 1 - y_{j} \right ),~i = j \\ <br /> &-y_{i}\cdot y_{j},~~~~~~i \neq j <br /> \end{cases} = y_{i}\left ( I\left [ i = j \right ] - y_{j}\right )</tex><br /> <br /> ===Свойства soft-arg-max===<br /> *Вычисляет по вектору чисел вектор с распределением вероятностей.<br /> *Можно интерпретировать как вероятность нахождения максимума в <tex>i</tex>-й координате.<br /> *'''soft-arg-max'''<tex>\left ( x - c,y-c,z-c\right )=</tex> '''soft-arg-max'''<tex>\left ( x,y,z\right )</tex><br /> *Предыдущее свойство используют для устойчивости вычислений. При <tex>c=max\left ( x,y,z \right )</tex><br /> <br /> ===Модификация soft-arg-max===<br /> '''soft-arg-max'''<tex>_{t}\left(x\right)=\frac{\exp\left(\frac{x_{i}}{t}\right)}{\sum\exp\left(\frac{x_{j}}{t}\right)}</tex><br /> <br /> Данная модификация полезна, когда необходимо контролировать распределение вероятностей, получаемое '''soft-arg-max'''. Чем больше параметр <tex>t</tex>, тем больше получаемые вероятности будут похожи на равномерное распределение.<br /> <br /> ==Soft-Max==<br /> ===Плохой Soft-Max===<br /> Зададим функцию '''soft-max''' таким образом:<br /> <br /> '''soft-max'''<tex>\left ( x_{1},\ldots,x_{n}\right ) = \frac{x_{i}~\cdot~\exp \left ( x_{i} \right )}{\sum_{j}\exp \left( x_{j} \right )} = \left \langle x, \right .</tex>'''soft-arg-max'''<tex>\left . \left (x_{1},\ldots,x_{n} \right ) \right \rangle</tex><br /> <br /> Гладкая аппроксимация максимума. Математическое ожидание или средневзвешенное, где веса {{---}} экспоненты значений соответствующих элементов. Сохраняет некоторые свойства максимума:<br /> <br /> *'''soft-max'''<tex>\left ( a,a,a\right ) = a</tex><br /> *'''soft-max'''<tex>\left ( x+a,y+a,z+a\right ) =</tex> '''soft-max'''<tex>\left ( x,y,z\right ) + a</tex><br /> <br /> Заданный выше '''soft-max''' {{---}} "плохой" в связи с тем, что мы считаем средневзвешенное значение, которое всегда будет меньше максимума, что приведёт к проблемам с поиском максимума.<br /> <br /> ===Хороший Soft-Max===<br /> '''soft-max'''<tex>\left ( x_{1},\ldots,x_{n}\right ) = \log\left(\sum_{i}\exp\left(x_{i}\right)\right)</tex><br /> <br /> *Не сохраняет свойство '''soft-max'''<tex>\left(a,a,a\right)=a</tex><br /> *Производная равна '''soft-arg-max'''<br /> <br /> В этом случае сохраняется монотонность, значит, не возникнет проблем с поиском минимума и максимума.<br /> <br /> ==Связь между вариациями Soft-Max==<br /> Обозначим "плохой" '''soft-max''' как '''bad-soft-max'''. Тогда:<br /> <br /> *'''bad-soft-max'''<tex>\left(x_{1},\ldots,x_{n}\right)=\left \langle x, \right .</tex>'''soft-arg-max'''<tex>\left . \left (x_{1},\ldots,x_{n} \right ) \right \rangle</tex><br /> *<tex>\nabla</tex>'''soft-max'''<tex>\left(x_{1},\ldots,x_{n}\right)=</tex>'''soft-arg-max'''<tex>\left(x_{1},\ldots,x_{n}\right)</tex><br /> *<tex>\log\left(\right.</tex>'''soft-arg-max'''<tex>_{i}\left(x_{1},\ldots,x_{n}\right)\left.\right) = x_{i} -</tex>'''soft-max'''<tex>\left(x_{1},\ldots,x_{n}\right)</tex><br /> ==Примечания==<br /> *В большинстве статей пишется '''soft-max''', хотя вместо этого подразумевается '''soft-arg-max'''.<br /> *'''soft-arg-max''' можно называть также как обобщённая (многомерная) сигмоида<br /> *'''soft-arg-max''' является алгоритмом подсчёта весов для '''soft-max'''</div>

5.44.169.198 http://neerc.ifmo.ru/wiki/index.php?title=Soft-Max_%D0%B8_Soft-Arg-Max&diff=82590 Soft-Max и Soft-Arg-Max 2022-07-01T14:55:30Z

<p>5.44.169.198: </p> <hr /> <div>==Soft-Arg-Max==<br /> ===Постановка задачи===<br /> Пусть есть задача мягкой классификации:<br /> <br /> Алгоритм выдает значения <tex>L_{1}, L_{2},\ldots, L_{n}</tex>, где <tex>n</tex> {{---}} число классов.<br /> <br /> <tex>L_{i}</tex> {{---}} уверенность алгоритма в том, что объект принадлежит классу <tex>i</tex>, <tex>L_{i} \in \left [ -\infty, +\infty\right ]</tex><br /> <br /> Для этих значений необходимо найти такие <tex>p_{1},\ldots,p_{n}</tex>, что:<br /> <br /> *<tex>p_{i} \in \left [ 0, 1\right ]</tex><br /> *<tex>\sum_{i}p_{i}=1</tex><br /> То есть <tex>p_{1},\ldots,p_{n}</tex> {{---}} распределение вероятностей.<br /> <br /> Для этого выполним преобразование:<br /> <br /> <tex>p_{i} = \frac{\exp\left(L_{i}\right)}{\sum_{i}\left(\exp\left(L_{i}\right)\right)}</tex><br /> <br /> Тогда выполняется следующее: <tex>L_{i} \leqslant L_{j} \implies p_{i} \leqslant p_{j}</tex><br /> <br /> Есть модель <tex>a</tex>, возвращающая <tex>L_{i}</tex>. Необходимо сделать так, чтобы <tex>a</tex> возвращала <tex>p_{i}</tex>, при этом оставаясь дифференциируемой.<br /> <br /> <tex>y = </tex> '''soft-arg-max'''<tex>\left ( x \right )</tex>, где <tex>y_{i} = \frac{\exp\left ( x_{i} \right )}{\sum_{j}\exp\left ( x_{i} \right )}</tex><br /> <tex>\frac{\partial y_{i}}{\partial x_{j}} = \begin{cases}<br /> &y_{i}\left ( 1 - y_{j} \right ),~i = j \\ <br /> &-y_{i}\cdot y_{j},~~~~~~i \neq j <br /> \end{cases} = y_{i}\left ( I\left [ i = j \right ] - y_{j}\right )</tex><br /> <br /> ===Свойства soft-arg-max===<br /> *Вычисляет по вектору чисел вектор с распределением вероятностей.<br /> *Можно интерпретировать как вероятность нахождения максимума в <tex>i</tex>-й координате.<br /> *'''soft-arg-max'''<tex>\left ( x - c,y-c,z-c\right )=</tex> '''soft-arg-max'''<tex>\left ( x,y,z\right )</tex><br /> *Предыдущее свойство используют для устойчивости вычислений. При <tex>c=max\left ( x,y,z \right )</tex><br /> <br /> ===Модификация soft-arg-max===<br /> '''soft-arg-max'''<tex>_{t}\left(x\right)=\frac{\exp\left(\frac{x_{i}}{t}\right)}{\sum\exp\left(\frac{x_{j}}{t}\right)}</tex><br /> <br /> Данная модификация полезна, когда необходимо контролировать распределение вероятностей, получаемое '''soft-arg-max'''. Чем больше параметр <tex>t</tex>, тем больше получаемые вероятности будут похожи на равномерное распределение.<br /> <br /> ==Soft-Max==<br /> ===Плохой Soft-Max===<br /> Зададим функцию '''soft-max''' таким образом:<br /> <br /> '''soft-max'''<tex>\left ( x_{1},\ldots,x_{n}\right ) = \frac{x_{i}~\cdot~\exp \left ( x_{i} \right )}{\sum_{j}\exp \left( x_{j} \right )} = \left \langle x, \right .</tex>'''soft-arg-max'''<tex>\left . \left (x_{1},\ldots,x_{n} \right ) \right \rangle</tex><br /> <br /> Гладкая аппроксимация максимума. Математическое ожидание или средневзвешенное, где веса {{---}} экспоненты значений соответствующих элементов. Сохраняет некоторые свойства максимума:<br /> <br /> *'''soft-max'''<tex>\left ( a,a,a\right ) = a</tex><br /> *'''soft-max'''<tex>\left ( x+a,y+a,z+a\right ) =</tex> '''soft-max'''<tex>\left ( x,y,z\right ) + a</tex><br /> <br /> Заданный выше '''soft-max''' {{---}} "плохой" в связи с тем, что мы считаем средневзвешенное значение, которое всегда будет меньше максимума, что приведёт к проблемам с поиском максимума.<br /> <br /> ===Хороший Soft-Max===<br /> '''soft-max'''<tex>\left ( x_{1},\ldots,x_{n}\right ) = \log\left(\sum_{i}\exp\left(x_{i}\right)\right)</tex><br /> <br /> *Не сохраняет свойство '''soft-max'''<tex>\left(a,a,a\right)=a</tex><br /> *Производная равна '''soft-arg-max'''<br /> <br /> В этом случае сохраняется монотонность, значит, не возникнет проблем с поиском минимума и максимума.<br /> <br /> ==Связь между вариациями Soft-Max==<br /> Обозначим "плохой" '''soft-max''' как '''bad-soft-max'''. Тогда:<br /> <br /> *'''bad-soft-max'''<tex>\left(x_{1},\ldots,x_{n}\right)=\left \langle x, \right .</tex>'''soft-arg-max'''<tex>\left . \left (x_{1},\ldots,x_{n} \right ) \right \rangle</tex><br /> *<tex>\nabla</tex>'''soft-max'''<tex>\left(x_{1},\ldots,x_{n}\right)=</tex>'''soft-arg-max'''<tex>\left(x_{1},\ldots,x_{n}\right)</tex><br /> *<tex>\log\left(\right.</tex>'''soft-arg-max'''<tex>_{i}\left(x_{1},\ldots,x_{n}\right)\left.\right) = x_{i} -</tex>'''soft-max'''<tex>\left(x_{1},\ldots,x_{n}\right)</tex><br /> ==Примечания==<br /> *В большинстве статей пишется '''soft-max''', хотя вместо этого подразумевается '''soft-arg-max'''.<br /> *'''soft-arg-max''' можно называть также как обобщённая (многомерная) сигмоида<br /> *'''soft-arg-max''' является алгоритмом подсчёта весов для '''soft-max'''</div>

5.44.169.198 http://neerc.ifmo.ru/wiki/index.php?title=Soft-Max_%D0%B8_Soft-Arg-Max&diff=82589 Soft-Max и Soft-Arg-Max 2022-07-01T14:44:02Z

<p>5.44.169.198: </p> <hr /> <div>Пусть есть задача мягкой классификации:<br /> <br /> Алгоритм <tex>a</tex> выдает значения <tex>L_{1}, L_{2},\ldots, L_{n}</tex>, где <tex>n</tex> {{---}} число классов.<br /> <br /> <tex>L_{i}</tex> {{---}} уверенность алгоритма в том, что объект принадлежит классу <tex>i</tex>, <tex>L_{i} \in \left [ -\infty, +\infty\right ]</tex><br /> <br /> Для этих значений необходимо найти такие <tex>p_{1},\ldots,p_{n}</tex>, что:<br /> <br /> *<tex>p_{i} \in \left [ 0, 1\right ]</tex><br /> *<tex>\sum_{i}p_{i}=1</tex><br /> То есть <tex>p_{1},\ldots,p_{n}</tex> {{---}} распределение вероятностей.<br /> <br /> Для этого выполним преобразование:<br /> <br /> <tex>p_{i} = \frac{\exp\left(L_{i}\right)}{\sum_{i}\left(\exp\left(L_{i}\right)\right)}</tex><br /> <br /> Тогда выполняется следующее: <tex>L_{i} \leqslant L_{j} \implies p_{i} \leqslant p_{j}</tex><br /> <br /> Есть модель a, возвращающая Li. Необходимо сделать так, чтобы a возвращала pi, при этом оставаясь дифференциируемой.<br /> ==Soft-Arg-Max==<br /> <tex>y = </tex> '''soft-arg-max'''<tex>\left ( x \right )</tex>, где <tex>y_{i} = \frac{\exp\left ( x_{i} \right )}{\sum_{j}\exp\left ( x_{i} \right )}</tex><br /> <tex>\frac{\partial y_{i}}{\partial x_{j}} = \begin{cases}<br /> &y_{i}\left ( 1 - y_{j} \right ),~i = j \\ <br /> &-y_{i}\cdot y_{j},~~~~~~i \neq j <br /> \end{cases} = y_{i}\left ( I\left [ i = j \right ] - y_{j}\right )</tex><br /> <br /> ===Свойства soft-arg-max===<br /> *Вычисляет по вектору чисел вектор с распределением вероятностей.<br /> *Можно интерпретировать как вероятность нахождения максимума в <tex>i</tex>-й координате.<br /> *'''soft-arg-max'''<tex>\left ( x - c,y-c,z-c\right )=</tex> '''soft-arg-max'''<tex>\left ( x,y,z\right )</tex><br /> *Предыдущее свойство используют для устойчивости вычислений. При <tex>c=max\left ( x,y,z \right )</tex><br /> <br /> ===Модификация soft-arg-max===<br /> '''soft-arg-max'''<tex>_{t}\left(x\right)=\frac{\exp\left(\frac{x_{i}}{t}\right)}{\sum\exp\left(\frac{x_{j}}{t}\right)}</tex><br /> <br /> Данная модификация полезна, когда необходимо контролировать распределение вероятностей, получаемое '''soft-arg-max'''. Чем больше параметр <tex>t</tex>, тем больше получаемые вероятности будут похожи на равномерное распределение.<br /> <br /> ==Soft-Max==<br /> ===Плохой Soft-Max===<br /> Зададим функцию '''soft-max''' таким образом:<br /> <br /> '''soft-max'''<tex>\left ( x_{1},\ldots,x_{n}\right ) = \frac{x_{i}~\cdot~\exp \left ( x_{i} \right )}{\sum_{j}\exp \left( x_{j} \right )} = \left \langle x, \right .</tex>'''soft-arg-max'''<tex>\left . \left (x_{1},\ldots,x_{n} \right ) \right \rangle</tex><br /> <br /> Гладкая аппроксимация максимума. Математическое ожидание или средневзвешенное, где веса {{---}} экспоненты значений соответствующих элементов. Сохраняет некоторые свойства максимума:<br /> <br /> *'''soft-max'''<tex>\left ( a,a,a\right ) = a</tex><br /> *'''soft-max'''<tex>\left ( x+a,y+a,z+a\right ) =</tex> '''soft-max'''<tex>\left ( x,y,z\right ) + a</tex><br /> <br /> Заданный выше '''soft-max''' {{---}} "плохой" в связи с тем, что мы считаем средневзвешенное значение, которое всегда будет меньше максимума, что приведёт к проблемам с поиском максимума.<br /> <br /> ===Хороший Soft-Max===<br /> '''soft-max'''<tex>\left ( x_{1},\ldots,x_{n}\right ) = \log\left(\sum_{i}\exp\left(x_{i}\right)\right)</tex><br /> <br /> *Не сохраняет свойство '''soft-max'''<tex>\left(a,a,a\right)=a</tex><br /> *Производная равна '''soft-arg-max'''<br /> <br /> В этом случае сохраняется монотонность, значит, не возникнет проблем с поиском минимума и максимума.<br /> <br /> ==Связь между вариациями Soft-Max==<br /> Обозначим "плохой" '''soft-max''' как '''bad-soft-max'''. Тогда:<br /> <br /> *'''bad-soft-max'''<tex>\left(x_{1},\ldots,x_{n}\right)=\left \langle x, \right .</tex>'''soft-arg-max'''<tex>\left . \left (x_{1},\ldots,x_{n} \right ) \right \rangle</tex><br /> *<tex>\nabla</tex>'''soft-max'''<tex>\left(x_{1},\ldots,x_{n}\right)=</tex>'''soft-arg-max'''<tex>\left(x_{1},\ldots,x_{n}\right)</tex><br /> *<tex>\log\left(\right.</tex>'''soft-arg-max'''<tex>_{i}\left(x_{1},\ldots,x_{n}\right)\left.\right) = x_{i} -</tex>'''soft-max'''<tex>\left(x_{1},\ldots,x_{n}\right)</tex><br /> ==Примечания==<br /> *В большинстве статей пишется '''soft-max''', хотя вместо этого подразумевается '''soft-arg-max'''.<br /> *'''soft-arg-max''' можно называть также как обобщённая (многомерная) сигмоида<br /> *'''soft-arg-max''' является алгоритмом подсчёта весов для '''soft-max'''</div>

5.44.169.198 http://neerc.ifmo.ru/wiki/index.php?title=Soft-Max_%D0%B8_Soft-Arg-Max&diff=82588 Soft-Max и Soft-Arg-Max 2022-07-01T14:41:32Z

<p>5.44.169.198: </p> <hr /> <div>Пусть есть задача мягкой классификации:<br /> <br /> Алгоритм <tex>a</tex> выдает значения <tex>L_{1}, L_{2},\ldots, L_{n}</tex>, где <tex>n</tex> {{---}} число классов.<br /> <br /> <tex>L_{i}</tex> {{---}} уверенность алгоритма в том, что объект принадлежит классу <tex>i</tex>, <tex>L_{i} \in \left [ -\infty, +\infty\right ]</tex><br /> <br /> Для этих значений необходимо найти такие <tex>p_{1},\ldots,p_{n}</tex>, что:<br /> <br /> *<tex>p_{i} \in \left [ 0, 1\right ]</tex><br /> *<tex>\sum_{i}p_{i}=1</tex><br /> То есть <tex>p_{1},\ldots,p_{n}</tex> {{---}} распределение вероятностей.<br /> <br /> Для этого выполним преобразование:<br /> <br /> <tex>p_{i} = \frac{\exp\left(L_{i}\right)}{\sum_{i}(\exp\left(L_{i}\right)}</tex><br /> Выполняется следующее: Li <= Lj => Pi <= Pj<br /> <br /> Есть модель a, возвращающая Li. Необходимо сделать так, чтобы a возвращала pi, при этом оставаясь дифференциируемой.<br /> ==Soft-Arg-Max==<br /> <tex>y = </tex> '''soft-arg-max'''<tex>\left ( x \right )</tex>, где <tex>y_{i} = \frac{\exp\left ( x_{i} \right )}{\sum_{j}\exp\left ( x_{i} \right )}</tex><br /> <tex>\frac{\partial y_{i}}{\partial x_{j}} = \begin{cases}<br /> &y_{i}\left ( 1 - y_{j} \right ),~i = j \\ <br /> &-y_{i}\cdot y_{j},~~~~~~i \neq j <br /> \end{cases} = y_{i}\left ( I\left [ i = j \right ] - y_{j}\right )</tex><br /> <br /> ===Свойства soft-arg-max===<br /> *Вычисляет по вектору чисел вектор с распределением вероятностей.<br /> *Можно интерпретировать как вероятность нахождения максимума в <tex>i</tex>-й координате.<br /> *'''soft-arg-max'''<tex>\left ( x - c,y-c,z-c\right )=</tex> '''soft-arg-max'''<tex>\left ( x,y,z\right )</tex><br /> *Предыдущее свойство используют для устойчивости вычислений. При <tex>c=max\left ( x,y,z \right )</tex><br /> <br /> ===Модификация soft-arg-max===<br /> '''soft-arg-max'''<tex>_{t}\left(x\right)=\frac{\exp\left(\frac{x_{i}}{t}\right)}{\sum\exp\left(\frac{x_{j}}{t}\right)}</tex><br /> <br /> Данная модификация полезна, когда необходимо контролировать распределение вероятностей, получаемое '''soft-arg-max'''. Чем больше параметр <tex>t</tex>, тем больше получаемые вероятности будут похожи на равномерное распределение.<br /> <br /> ==Soft-Max==<br /> ===Плохой Soft-Max===<br /> Зададим функцию '''soft-max''' таким образом:<br /> <br /> '''soft-max'''<tex>\left ( x_{1},\ldots,x_{n}\right ) = \frac{x_{i}~\cdot~\exp \left ( x_{i} \right )}{\sum_{j}\exp \left( x_{j} \right )} = \left \langle x, \right .</tex>'''soft-arg-max'''<tex>\left . \left (x_{1},\ldots,x_{n} \right ) \right \rangle</tex><br /> <br /> Гладкая аппроксимация максимума. Математическое ожидание или средневзвешенное, где веса {{---}} экспоненты значений соответствующих элементов. Сохраняет некоторые свойства максимума:<br /> <br /> *'''soft-max'''<tex>\left ( a,a,a\right ) = a</tex><br /> *'''soft-max'''<tex>\left ( x+a,y+a,z+a\right ) =</tex> '''soft-max'''<tex>\left ( x,y,z\right ) + a</tex><br /> <br /> Заданный выше '''soft-max''' {{---}} "плохой" в связи с тем, что мы считаем средневзвешенное значение, которое всегда будет меньше максимума, что приведёт к проблемам с поиском максимума.<br /> <br /> ===Хороший Soft-Max===<br /> '''soft-max'''<tex>\left ( x_{1},\ldots,x_{n}\right ) = \log\left(\sum_{i}\exp\left(x_{i}\right)\right)</tex><br /> <br /> *Не сохраняет свойство '''soft-max'''<tex>\left(a,a,a\right)=a</tex><br /> *Производная равна '''soft-arg-max'''<br /> <br /> В этом случае сохраняется монотонность, значит, не возникнет проблем с поиском минимума и максимума.<br /> <br /> ==Связь между вариациями Soft-Max==<br /> Обозначим "плохой" '''soft-max''' как '''bad-soft-max'''. Тогда:<br /> <br /> *'''bad-soft-max'''<tex>\left(x_{1},\ldots,x_{n}\right)=\left \langle x, \right .</tex>'''soft-arg-max'''<tex>\left . \left (x_{1},\ldots,x_{n} \right ) \right \rangle</tex><br /> *<tex>\nabla</tex>'''soft-max'''<tex>\left(x_{1},\ldots,x_{n}\right)=</tex>'''soft-arg-max'''<tex>\left(x_{1},\ldots,x_{n}\right)</tex><br /> *<tex>\log\left(\right.</tex>'''soft-arg-max'''<tex>_{i}\left(x_{1},\ldots,x_{n}\right)\left.\right) = x_{i} -</tex>'''soft-max'''<tex>\left(x_{1},\ldots,x_{n}\right)</tex><br /> ==Примечания==<br /> *В большинстве статей пишется '''soft-max''', хотя вместо этого подразумевается '''soft-arg-max'''.<br /> *'''soft-arg-max''' можно называть также как обобщённая (многомерная) сигмоида<br /> *'''soft-arg-max''' является алгоритмом подсчёта весов для '''soft-max'''</div>

5.44.169.198 http://neerc.ifmo.ru/wiki/index.php?title=Soft-Max_%D0%B8_Soft-Arg-Max&diff=82587 Soft-Max и Soft-Arg-Max 2022-07-01T14:38:22Z

<p>5.44.169.198: </p> <hr /> <div>Пусть есть задача мягкой классификации:<br /> <br /> Алгоритм <tex>a</tex> выдает значения <tex>L_{1}, L_{2},\ldots, L_{n}</tex>, где <tex>n</tex> {{---}} число классов.<br /> <br /> <tex>L_{i}</tex> {{---}} уверенность алгоритма в том, что объект принадлежит классу <tex>i</tex>, <tex>L_{i} \in \left [ -\infty, +\infty\right ]</tex><br /> <br /> Для этих значений необходимо найти такие <tex>p_{1},\ldots,p_{n}</tex>, что:<br /> <br /> *<tex>p_{i} \in \left [ 0, 1\right ]</tex><br /> *<tex>\sum{i}p_{i}=1</tex><br /> То есть <tex>p_{1},\ldots,p_{n}</tex> {{---}} распределение вероятностей.<br /> <br /> Для этого возьмём экспоненту от L1..Ln; Получим числа от [0;+oo] и нормируем их:<br /> pi = exp(Li)/Sum(exp(Li))<br /> Выполняется следующее: Li <= Lj => Pi <= Pj<br /> <br /> Есть модель a, возвращающая Li. Необходимо сделать так, чтобы a возвращала pi, при этом оставаясь дифференциируемой.<br /> ==Soft-Arg-Max==<br /> <tex>y = </tex> '''soft-arg-max'''<tex>\left ( x \right )</tex>, где <tex>y_{i} = \frac{\exp\left ( x_{i} \right )}{\sum_{j}\exp\left ( x_{i} \right )}</tex><br /> <tex>\frac{\partial y_{i}}{\partial x_{j}} = \begin{cases}<br /> &y_{i}\left ( 1 - y_{j} \right ),~i = j \\ <br /> &-y_{i}\cdot y_{j},~~~~~~i \neq j <br /> \end{cases} = y_{i}\left ( I\left [ i = j \right ] - y_{j}\right )</tex><br /> <br /> ===Свойства soft-arg-max===<br /> *Вычисляет по вектору чисел вектор с распределением вероятностей.<br /> *Можно интерпретировать как вероятность нахождения максимума в <tex>i</tex>-й координате.<br /> *'''soft-arg-max'''<tex>\left ( x - c,y-c,z-c\right )=</tex> '''soft-arg-max'''<tex>\left ( x,y,z\right )</tex><br /> *Предыдущее свойство используют для устойчивости вычислений. При <tex>c=max\left ( x,y,z \right )</tex><br /> <br /> ===Модификация soft-arg-max===<br /> '''soft-arg-max'''<tex>_{t}\left(x\right)=\frac{\exp\left(\frac{x_{i}}{t}\right)}{\sum\exp\left(\frac{x_{j}}{t}\right)}</tex><br /> <br /> Данная модификация полезна, когда необходимо контролировать распределение вероятностей, получаемое '''soft-arg-max'''. Чем больше параметр <tex>t</tex>, тем больше получаемые вероятности будут похожи на равномерное распределение.<br /> <br /> ==Soft-Max==<br /> ===Плохой Soft-Max===<br /> Зададим функцию '''soft-max''' таким образом:<br /> <br /> '''soft-max'''<tex>\left ( x_{1},\ldots,x_{n}\right ) = \frac{x_{i}~\cdot~\exp \left ( x_{i} \right )}{\sum_{j}\exp \left( x_{j} \right )} = \left \langle x, \right .</tex>'''soft-arg-max'''<tex>\left . \left (x_{1},\ldots,x_{n} \right ) \right \rangle</tex><br /> <br /> Гладкая аппроксимация максимума. Математическое ожидание или средневзвешенное, где веса {{---}} экспоненты значений соответствующих элементов. Сохраняет некоторые свойства максимума:<br /> <br /> *'''soft-max'''<tex>\left ( a,a,a\right ) = a</tex><br /> *'''soft-max'''<tex>\left ( x+a,y+a,z+a\right ) =</tex> '''soft-max'''<tex>\left ( x,y,z\right ) + a</tex><br /> <br /> Заданный выше '''soft-max''' {{---}} "плохой" в связи с тем, что мы считаем средневзвешенное значение, которое всегда будет меньше максимума, что приведёт к проблемам с поиском максимума.<br /> <br /> ===Хороший Soft-Max===<br /> '''soft-max'''<tex>\left ( x_{1},\ldots,x_{n}\right ) = \log\left(\sum_{i}\exp\left(x_{i}\right)\right)</tex><br /> <br /> *Не сохраняет свойство '''soft-max'''<tex>\left(a,a,a\right)=a</tex><br /> *Производная равна '''soft-arg-max'''<br /> <br /> В этом случае сохраняется монотонность, значит, не возникнет проблем с поиском минимума и максимума.<br /> <br /> ==Связь между вариациями Soft-Max==<br /> Обозначим "плохой" '''soft-max''' как '''bad-soft-max'''. Тогда:<br /> <br /> *'''bad-soft-max'''<tex>\left(x_{1},\ldots,x_{n}\right)=\left \langle x, \right .</tex>'''soft-arg-max'''<tex>\left . \left (x_{1},\ldots,x_{n} \right ) \right \rangle</tex><br /> *<tex>\nabla</tex>'''soft-max'''<tex>\left(x_{1},\ldots,x_{n}\right)=</tex>'''soft-arg-max'''<tex>\left(x_{1},\ldots,x_{n}\right)</tex><br /> *<tex>\log\left(\right.</tex>'''soft-arg-max'''<tex>_{i}\left(x_{1},\ldots,x_{n}\right)\left.\right) = x_{i} -</tex>'''soft-max'''<tex>\left(x_{1},\ldots,x_{n}\right)</tex><br /> ==Примечания==<br /> *В большинстве статей пишется '''soft-max''', хотя вместо этого подразумевается '''soft-arg-max'''.<br /> *'''soft-arg-max''' можно называть также как обобщённая (многомерная) сигмоида<br /> *'''soft-arg-max''' является алгоритмом подсчёта весов для '''soft-max'''</div>

5.44.169.198 http://neerc.ifmo.ru/wiki/index.php?title=Soft-Max_%D0%B8_Soft-Arg-Max&diff=82586 Soft-Max и Soft-Arg-Max 2022-07-01T14:35:13Z

<p>5.44.169.198: </p> <hr /> <div>Пусть есть задача мягкой классификации:<br /> Алгоритм <tex>a</tex> выдает значения <tex>L_{1}, L_{2},\ldots, L_{n}</tex>, где <tex>n</tex> {{---}} число классов.<br /> <tex>L_{i}</tex> {{---}} уверенность алгоритма в том, что объект принадлежит классу <tex>i</tex>, <tex>L_{i} \in \left [ -\infty, +\infty\right ]</tex><br /> <br /> Нужно для этих значений найти такие p1,...pn, что pi из [0, 1], а сумма pi = 1, то есть p1..pn - распределение вероятностей.<br /> Для этого возьмём экспоненту от L1..Ln; Получим числа от [0;+oo] и нормируем их:<br /> pi = exp(Li)/Sum(exp(Li))<br /> Выполняется следующее: Li <= Lj => Pi <= Pj<br /> <br /> Есть модель a, возвращающая Li. Необходимо сделать так, чтобы a возвращала pi, при этом оставаясь дифференциируемой.<br /> ==Soft-Arg-Max==<br /> <tex>y = </tex> '''soft-arg-max'''<tex>\left ( x \right )</tex>, где <tex>y_{i} = \frac{\exp\left ( x_{i} \right )}{\sum_{j}\exp\left ( x_{i} \right )}</tex><br /> <tex>\frac{\partial y_{i}}{\partial x_{j}} = \begin{cases}<br /> &y_{i}\left ( 1 - y_{j} \right ),~i = j \\ <br /> &-y_{i}\cdot y_{j},~~~~~~i \neq j <br /> \end{cases} = y_{i}\left ( I\left [ i = j \right ] - y_{j}\right )</tex><br /> <br /> ===Свойства soft-arg-max===<br /> *Вычисляет по вектору чисел вектор с распределением вероятностей.<br /> *Можно интерпретировать как вероятность нахождения максимума в <tex>i</tex>-й координате.<br /> *'''soft-arg-max'''<tex>\left ( x - c,y-c,z-c\right )=</tex> '''soft-arg-max'''<tex>\left ( x,y,z\right )</tex><br /> *Предыдущее свойство используют для устойчивости вычислений. При <tex>c=max\left ( x,y,z \right )</tex><br /> <br /> ===Модификация soft-arg-max===<br /> '''soft-arg-max'''<tex>_{t}\left(x\right)=\frac{\exp\left(\frac{x_{i}}{t}\right)}{\sum\exp\left(\frac{x_{j}}{t}\right)}</tex><br /> <br /> Данная модификация полезна, когда необходимо контролировать распределение вероятностей, получаемое '''soft-arg-max'''. Чем больше параметр <tex>t</tex>, тем больше получаемые вероятности будут похожи на равномерное распределение.<br /> <br /> ==Soft-Max==<br /> ===Плохой Soft-Max===<br /> Зададим функцию '''soft-max''' таким образом:<br /> <br /> '''soft-max'''<tex>\left ( x_{1},\ldots,x_{n}\right ) = \frac{x_{i}~\cdot~\exp \left ( x_{i} \right )}{\sum_{j}\exp \left( x_{j} \right )} = \left \langle x, \right .</tex>'''soft-arg-max'''<tex>\left . \left (x_{1},\ldots,x_{n} \right ) \right \rangle</tex><br /> <br /> Гладкая аппроксимация максимума. Математическое ожидание или средневзвешенное, где веса {{---}} экспоненты значений соответствующих элементов. Сохраняет некоторые свойства максимума:<br /> <br /> *'''soft-max'''<tex>\left ( a,a,a\right ) = a</tex><br /> *'''soft-max'''<tex>\left ( x+a,y+a,z+a\right ) =</tex> '''soft-max'''<tex>\left ( x,y,z\right ) + a</tex><br /> <br /> Заданный выше '''soft-max''' {{---}} "плохой" в связи с тем, что мы считаем средневзвешенное значение, которое всегда будет меньше максимума, что приведёт к проблемам с поиском максимума.<br /> <br /> ===Хороший Soft-Max===<br /> '''soft-max'''<tex>\left ( x_{1},\ldots,x_{n}\right ) = \log\left(\sum_{i}\exp\left(x_{i}\right)\right)</tex><br /> <br /> *Не сохраняет свойство '''soft-max'''<tex>\left(a,a,a\right)=a</tex><br /> *Производная равна '''soft-arg-max'''<br /> <br /> В этом случае сохраняется монотонность, значит, не возникнет проблем с поиском минимума и максимума.<br /> <br /> ==Связь между вариациями Soft-Max==<br /> Обозначим "плохой" '''soft-max''' как '''bad-soft-max'''. Тогда:<br /> <br /> *'''bad-soft-max'''<tex>\left(x_{1},\ldots,x_{n}\right)=\left \langle x, \right .</tex>'''soft-arg-max'''<tex>\left . \left (x_{1},\ldots,x_{n} \right ) \right \rangle</tex><br /> *<tex>\nabla</tex>'''soft-max'''<tex>\left(x_{1},\ldots,x_{n}\right)=</tex>'''soft-arg-max'''<tex>\left(x_{1},\ldots,x_{n}\right)</tex><br /> *<tex>\log\left(\right.</tex>'''soft-arg-max'''<tex>_{i}\left(x_{1},\ldots,x_{n}\right)\left.\right) = x_{i} -</tex>'''soft-max'''<tex>\left(x_{1},\ldots,x_{n}\right)</tex><br /> ==Примечания==<br /> *В большинстве статей пишется '''soft-max''', хотя вместо этого подразумевается '''soft-arg-max'''.<br /> *'''soft-arg-max''' можно называть также как обобщённая (многомерная) сигмоида<br /> *'''soft-arg-max''' является алгоритмом подсчёта весов для '''soft-max'''</div>

5.44.169.198 http://neerc.ifmo.ru/wiki/index.php?title=Soft-Max_%D0%B8_Soft-Arg-Max&diff=82585 Soft-Max и Soft-Arg-Max 2022-07-01T14:30:19Z

<p>5.44.169.198: </p> <hr /> <div>Soft-Max и Soft-Arg-Max. <br /> ==Soft-Arg-Max==<br /> Пусть есть задача мягкой классификации: Алгоритм выдает значения L1, L2, ... Ln, где n - число классов. Li - уверенность алгоритма в том, что объект принадлежит классу i; -oo <=Li <= +oo. <br /> Нужно для этих значений найти такие p1,...pn, что pi из [0, 1], а сумма pi = 1, то есть p1..pn - распределение вероятностей.<br /> Для этого возьмём экспоненту от L1..Ln; Получим числа от [0;+oo] и нормируем их:<br /> pi = exp(Li)/Sum(exp(Li))<br /> Выполняется следующее: Li <= Lj => Pi <= Pj<br /> <br /> Есть модель a, возвращающая Li. Необходимо сделать так, чтобы a возвращала pi, при этом оставаясь дифференциируемой.<br /> <tex>y = </tex> '''soft-arg-max'''<tex>\left ( x \right )</tex>, где <tex>y_{i} = \frac{\exp\left ( x_{i} \right )}{\sum_{j}\exp\left ( x_{i} \right )}</tex><br /> <tex>\frac{\partial y_{i}}{\partial x_{j}} = \begin{cases}<br /> &y_{i}\left ( 1 - y_{j} \right ),~i = j \\ <br /> &-y_{i}\cdot y_{j},~~~~~~i \neq j <br /> \end{cases} = y_{i}\left ( I\left [ i = j \right ] - y_{j}\right )</tex><br /> <br /> ===Свойства soft-arg-max===<br /> *Вычисляет по вектору чисел вектор с распределением вероятностей.<br /> *Можно интерпретировать как вероятность нахождения максимума в <tex>i</tex>-й координате.<br /> *'''soft-arg-max'''<tex>\left ( x - c,y-c,z-c\right )=</tex> '''soft-arg-max'''<tex>\left ( x,y,z\right )</tex><br /> *Предыдущее свойство используют для устойчивости вычислений. При <tex>c=max\left ( x,y,z \right )</tex><br /> <br /> ===Модификация soft-arg-max===<br /> '''soft-arg-max'''<tex>_{t}\left(x\right)=\frac{\exp\left(\frac{x_{i}}{t}\right)}{\sum\exp\left(\frac{x_{j}}{t}\right)}</tex><br /> <br /> Данная модификация полезна, когда необходимо контролировать распределение вероятностей, получаемое '''soft-arg-max'''. Чем больше параметр <tex>t</tex>, тем больше получаемые вероятности будут похожи на равномерное распределение.<br /> <br /> ==Soft-Max==<br /> ===Плохой Soft-Max===<br /> Зададим функцию '''soft-max''' таким образом:<br /> <br /> '''soft-max'''<tex>\left ( x_{1},\ldots,x_{n}\right ) = \frac{x_{i}~\cdot~\exp \left ( x_{i} \right )}{\sum_{j}\exp \left( x_{j} \right )} = \left \langle x, \right .</tex>'''soft-arg-max'''<tex>\left . \left (x_{1},\ldots,x_{n} \right ) \right \rangle</tex><br /> <br /> Гладкая аппроксимация максимума. Математическое ожидание или средневзвешенное, где веса {{---}} экспоненты значений соответствующих элементов. Сохраняет некоторые свойства максимума:<br /> <br /> *'''soft-max'''<tex>\left ( a,a,a\right ) = a</tex><br /> *'''soft-max'''<tex>\left ( x+a,y+a,z+a\right ) =</tex> '''soft-max'''<tex>\left ( x,y,z\right ) + a</tex><br /> <br /> Заданный выше '''soft-max''' {{---}} "плохой" в связи с тем, что мы считаем средневзвешенное значение, которое всегда будет меньше максимума, что приведёт к проблемам с поиском максимума.<br /> <br /> ===Хороший Soft-Max===<br /> '''soft-max'''<tex>\left ( x_{1},\ldots,x_{n}\right ) = \log\left(\sum_{i}\exp\left(x_{i}\right)\right)</tex><br /> <br /> *Не сохраняет свойство '''soft-max'''<tex>\left(a,a,a\right)=a</tex><br /> *Производная равна '''soft-arg-max'''<br /> <br /> В этом случае сохраняется монотонность, значит, не возникнет проблем с поиском минимума и максимума.<br /> <br /> ==Связь между вариациями Soft-Max==<br /> Обозначим "плохой" '''soft-max''' как '''bad-soft-max'''. Тогда:<br /> <br /> *'''bad-soft-max'''<tex>\left(x_{1},\ldots,x_{n}\right)=\left \langle x, \right .</tex>'''soft-arg-max'''<tex>\left . \left (x_{1},\ldots,x_{n} \right ) \right \rangle</tex><br /> *<tex>\nabla</tex>'''soft-max'''<tex>\left(x_{1},\ldots,x_{n}\right)=</tex>'''soft-arg-max'''<tex>\left(x_{1},\ldots,x_{n}\right)</tex><br /> *<tex>\log\left(\right.</tex>'''soft-arg-max'''<tex>_{i}\left(x_{1},\ldots,x_{n}\right)\left.\right) = x_{i} -</tex>'''soft-max'''<tex>\left(x_{1},\ldots,x_{n}\right)</tex><br /> ==Примечания==<br /> *В большинстве статей пишется '''soft-max''', хотя вместо этого подразумевается '''soft-arg-max'''.<br /> *'''soft-arg-max''' можно называть также как обобщённая (многомерная) сигмоида<br /> *'''soft-arg-max''' является алгоритмом подсчёта весов для '''soft-max'''</div>

5.44.169.198 http://neerc.ifmo.ru/wiki/index.php?title=Soft-Max_%D0%B8_Soft-Arg-Max&diff=82584 Soft-Max и Soft-Arg-Max 2022-07-01T14:28:24Z

<p>5.44.169.198: </p> <hr /> <div>Soft-Max и Soft-Arg-Max. <br /> ==Soft-Arg-Max==<br /> Пусть есть задача мягкой классификации: Алгоритм выдает значения L1, L2, ... Ln, где n - число классов. Li - уверенность алгоритма в том, что объект принадлежит классу i; -oo <=Li <= +oo. <br /> Нужно для этих значений найти такие p1,...pn, что pi из [0, 1], а сумма pi = 1, то есть p1..pn - распределение вероятностей.<br /> Для этого возьмём экспоненту от L1..Ln; Получим числа от [0;+oo] и нормируем их:<br /> pi = exp(Li)/Sum(exp(Li))<br /> Выполняется следующее: Li <= Lj => Pi <= Pj<br /> <br /> Есть модель a, возвращающая Li. Необходимо сделать так, чтобы a возвращала pi, при этом оставаясь дифференциируемой.<br /> <tex>y = </tex> '''soft-arg-max'''<tex>\left ( x \right )</tex>, где <tex>y_{i} = \frac{\exp\left ( x_{i} \right )}{\sum_{j}\exp\left ( x_{i} \right )}</tex><br /> <tex>\frac{\partial y_{i}}{\partial x_{j}} = \begin{cases}<br /> &y_{i}\left ( 1 - y_{j} \right ),~i = j \\ <br /> &-y_{i}\cdot y_{j},~~~~~~i \neq j <br /> \end{cases} = y_{i}\left ( I\left [ i = j \right ] - y_{j}\right )</tex><br /> <br /> ===Свойства soft-arg-max===<br /> *Вычисляет по вектору чисел вектор с распределением вероятностей.<br /> *Можно интерпретировать как вероятность нахождения максимума в <tex>i</tex>-й координате.<br /> *'''soft-arg-max'''<tex>\left ( x - c,y-c,z-c\right )=</tex> '''soft-arg-max'''<tex>\left ( x,y,z\right )</tex><br /> *Предыдущее свойство используют для устойчивости вычислений. При <tex>c=max\left ( x,y,z \right )</tex><br /> <br /> ===Модификация soft-arg-max===<br /> '''soft-arg-max'''<tex>_{t}\left(x\right)=\frac{\exp\left(\frac{x_{i}}{t}\right)}{\sum\exp\left(\frac{x_{j}}{t}\right)}</tex><br /> <br /> Данная модификация полезна, когда необходимо контролировать распределение вероятностей, получаемое '''soft-arg-max'''. Чем больше параметр <tex>t</tex>, тем больше получаемые вероятности будут похожи на равномерное распределение.<br /> <br /> ==Soft-Max==<br /> ===Плохой Soft-Max===<br /> Зададим функцию '''soft-max''' таким образом:<br /> <br /> '''soft-max'''<tex>\left ( x_{1},\ldots,x_{n}\right ) = \frac{x_{i}~\cdot~\exp \left ( x_{i} \right )}{\sum_{j}\exp \left( x_{j} \right )} = \left \langle x, \right .</tex>'''soft-arg-max'''<tex>\left . \left (x_{1},\ldots,x_{n} \right ) \right \rangle</tex><br /> <br /> Гладкая аппроксимация максимума. Математическое ожидание или средневзвешенное, где веса {{---}} экспоненты значений соответствующих элементов. Сохраняет некоторые свойства максимума:<br /> <br /> *'''soft-max'''<tex>\left ( a,a,a\right ) = a</tex><br /> *'''soft-max'''<tex>\left ( x+a,y+a,z+a\right ) =</tex> '''soft-max'''<tex>\left ( x,y,z\right ) + a</tex><br /> <br /> Заданный выше '''soft-max''' {{---}} "плохой" в связи с тем, что мы считаем средневзвешенное значение, которое всегда будет меньше максимума, что приведёт к проблемам с поиском максимума.<br /> <br /> ===Хороший Soft-Max===<br /> '''soft-max'''<tex>\left ( x_{1},\ldots,x_{n}\right ) = \log\left(\sum_{i}\exp\left(x_{i}\right)\right)</tex><br /> <br /> *Не сохраняет свойство '''soft-max'''<tex>\left(a,a,a\right)=a</tex><br /> *Производная равна '''soft-arg-max'''<br /> <br /> В этом случае сохраняется монотонность, значит, не возникнет проблем с поиском минимума и максимума.<br /> <br /> ==Связь между вариациями Soft-Max==<br /> Обозначим "плохой" '''soft-max''' как '''bad-soft-max'''. Тогда:<br /> <br /> *'''bad-soft-max'''<tex>\left(x_{1},\ldots,x_{n}\right)=\left \langle x, \right .</tex>'''soft-arg-max'''<tex>\left . \left (x_{1},\ldots,x_{n} \right ) \right \rangle</tex><br /> *<tex>\nabla</tex>'''soft-max'''<tex>\left(x_{1},\ldots,x_{n}\right)=</tex>'''soft-arg-max'''<tex>\left(x_{1},\ldots,x_{n}\right)</tex><br /> *<tex>\log\left(\right.</tex>'''soft-arg-max'''<tex>_{i}\left(x_{1},\ldots,x_{n}\right)\left.\right) = x_{i} -</tex>'''soft-max'''<tex>\left(x_{1},\ldots,x_{n}\right)</tex><br /> ==Языковые нюансы==<br /> *В большинстве статей пишется '''soft-max''', хотя вместо этого подразумевается '''soft-arg-max'''.<br /> *'''soft-arg-max''' можно называть также как обобщённая (многомерная) сигмоида<br /> *'''soft-arg-max''' является алгоритмом подсчёта весов для '''soft-max'''</div>

5.44.169.198 http://neerc.ifmo.ru/wiki/index.php?title=Soft-Max_%D0%B8_Soft-Arg-Max&diff=82583 Soft-Max и Soft-Arg-Max 2022-07-01T14:24:49Z

<p>5.44.169.198: /* Модификация soft-arg-max */</p> <hr /> <div>Soft-Max и Soft-Arg-Max. <br /> ==Soft-Arg-Max==<br /> Пусть есть задача мягкой классификации: Алгоритм выдает значения L1, L2, ... Ln, где n - число классов. Li - уверенность алгоритма в том, что объект принадлежит классу i; -oo <=Li <= +oo. <br /> Нужно для этих значений найти такие p1,...pn, что pi из [0, 1], а сумма pi = 1, то есть p1..pn - распределение вероятностей.<br /> Для этого возьмём экспоненту от L1..Ln; Получим числа от [0;+oo] и нормируем их:<br /> pi = exp(Li)/Sum(exp(Li))<br /> Выполняется следующее: Li <= Lj => Pi <= Pj<br /> <br /> Есть модель a, возвращающая Li. Необходимо сделать так, чтобы a возвращала pi, при этом оставаясь дифференциируемой.<br /> <tex>y = </tex> '''soft-arg-max'''<tex>\left ( x \right )</tex>, где <tex>y_{i} = \frac{\exp\left ( x_{i} \right )}{\sum_{j}\exp\left ( x_{i} \right )}</tex><br /> <tex>\frac{\partial y_{i}}{\partial x_{j}} = \begin{cases}<br /> &y_{i}\left ( 1 - y_{j} \right ),~i = j \\ <br /> &-y_{i}\cdot y_{j},~~~~~~i \neq j <br /> \end{cases} = y_{i}\left ( I\left [ i = j \right ] - y_{j}\right )</tex><br /> <br /> ===Свойства soft-arg-max===<br /> *Вычисляет по вектору чисел вектор с распределением вероятностей.<br /> *Можно интерпретировать как вероятность нахождения максимума в <tex>i</tex>-й координате.<br /> *'''soft-arg-max'''<tex>\left ( x - c,y-c,z-c\right )=</tex> '''soft-arg-max'''<tex>\left ( x,y,z\right )</tex><br /> *Предыдущее свойство используют для устойчивости вычислений. При <tex>c=max\left ( x,y,z \right )</tex><br /> <br /> ===Модификация soft-arg-max===<br /> '''soft-arg-max'''<tex>_{t}\left(x\right)=\frac{\exp\left(\frac{x_{i}}{t}\right)}{\sum\exp\left(\frac{x_{j}}{t}\right)}</tex><br /> <br /> Данная модификация полезна, когда необходимо контролировать распределение вероятностей, получаемое '''soft-arg-max'''. Чем больше параметр <tex>t</tex>, тем больше получаемые вероятности будут похожи на равномерное распределение.<br /> <br /> ==Soft-Max==<br /> ===Плохой Soft-Max===<br /> Зададим функцию '''soft-max''' таким образом:<br /> <br /> '''soft-max'''<tex>\left ( x_{1},\ldots,x_{n}\right ) = \frac{x_{i}~\cdot~\exp \left ( x_{i} \right )}{\sum_{j}\exp \left( x_{j} \right )} = \left \langle x, \right .</tex>'''soft-arg-max'''<tex>\left . \left (x_{1},\ldots,x_{n} \right ) \right \rangle</tex><br /> <br /> Гладкая аппроксимация максимума. Математическое ожидание или средневзвешенное, где веса {{---}} экспоненты значений соответствующих элементов. Сохраняет некоторые свойства максимума:<br /> <br /> *'''soft-max'''<tex>\left ( a,a,a\right ) = a</tex><br /> *'''soft-max'''<tex>\left ( x+a,y+a,z+a\right ) =</tex> '''soft-max'''<tex>\left ( x,y,z\right ) + a</tex><br /> <br /> Заданный выше '''soft-max''' {{---}} "плохой" в связи с тем, что мы считаем средневзвешенное значение, которое всегда будет меньше максимума, что приведёт к проблемам с поиском максимума.<br /> <br /> ===Хороший Soft-Max===<br /> '''soft-max'''<tex>\left ( x_{1},\ldots,x_{n}\right ) = \log\left(\sum_{i}\exp\left(x_{i}\right)\right)</tex><br /> <br /> *Не сохраняет свойство '''soft-max'''<tex>\left(a,a,a\right)=a</tex><br /> *Производная равна '''soft-arg-max'''<br /> <br /> В этом случае сохраняется монотонность, значит, не возникнет проблем с поиском минимума и максимума.<br /> <br /> ==Связь между вариациями Soft-Max==<br /> Обозначим "плохой" '''soft-max''' как '''bad-soft-max'''. Тогда:<br /> <br /> *'''bad-soft-max'''<tex>\left(x_{1},\ldots,x_{n}\right)=\left \langle x, \right .</tex>'''soft-arg-max'''<tex>\left . \left (x_{1},\ldots,x_{n} \right ) \right \rangle</tex><br /> *<tex>\nabla</tex>'''soft-max'''<tex>\left(x_{1},\ldots,x_{n}\right)=</tex>'''soft-arg-max'''<tex>\left(x_{1},\ldots,x_{n}\right)</tex><br /> *<tex>\log\left(\right.</tex>'''soft-arg-max'''<tex>_{i}\left(x_{1},\ldots,x_{n}\right)\left.\right) = x_{i} -</tex>'''soft-max'''<tex>\left(x_{1},\ldots,x_{n}\right)</tex><br /> ==Примечание==<br /> *В большинстве статей пишется '''soft-max''', хотя вместо этого подразумевается '''soft-arg-max'''.<br /> *'''soft-arg-max''' можно называть также как обобщённая (многомерная) сигмоида<br /> *'''soft-arg-max''' является алгоритмом подсчёта весов для '''soft-max'''</div>

5.44.169.198 http://neerc.ifmo.ru/wiki/index.php?title=Soft-Max_%D0%B8_Soft-Arg-Max&diff=82582 Soft-Max и Soft-Arg-Max 2022-07-01T14:21:35Z

<p>5.44.169.198: /* Soft-Arg-Max */</p> <hr /> <div>Soft-Max и Soft-Arg-Max. <br /> ==Soft-Arg-Max==<br /> Пусть есть задача мягкой классификации: Алгоритм выдает значения L1, L2, ... Ln, где n - число классов. Li - уверенность алгоритма в том, что объект принадлежит классу i; -oo <=Li <= +oo. <br /> Нужно для этих значений найти такие p1,...pn, что pi из [0, 1], а сумма pi = 1, то есть p1..pn - распределение вероятностей.<br /> Для этого возьмём экспоненту от L1..Ln; Получим числа от [0;+oo] и нормируем их:<br /> pi = exp(Li)/Sum(exp(Li))<br /> Выполняется следующее: Li <= Lj => Pi <= Pj<br /> <br /> Есть модель a, возвращающая Li. Необходимо сделать так, чтобы a возвращала pi, при этом оставаясь дифференциируемой.<br /> <tex>y = </tex> '''soft-arg-max'''<tex>\left ( x \right )</tex>, где <tex>y_{i} = \frac{\exp\left ( x_{i} \right )}{\sum_{j}\exp\left ( x_{i} \right )}</tex><br /> <tex>\frac{\partial y_{i}}{\partial x_{j}} = \begin{cases}<br /> &y_{i}\left ( 1 - y_{j} \right ),~i = j \\ <br /> &-y_{i}\cdot y_{j},~~~~~~i \neq j <br /> \end{cases} = y_{i}\left ( I\left [ i = j \right ] - y_{j}\right )</tex><br /> <br /> ===Свойства soft-arg-max===<br /> *Вычисляет по вектору чисел вектор с распределением вероятностей.<br /> *Можно интерпретировать как вероятность нахождения максимума в <tex>i</tex>-й координате.<br /> *'''soft-arg-max'''<tex>\left ( x - c,y-c,z-c\right )=</tex> '''soft-arg-max'''<tex>\left ( x,y,z\right )</tex><br /> *Предыдущее свойство используют для устойчивости вычислений. При <tex>c=max\left ( x,y,z \right )</tex><br /> <br /> ===Модификация soft-arg-max===<br /> '''soft-arg-max'''<tex>_{t}\left(x\right)=\frac{\exp\left(x_{i}\right)}{\sum\exp\left(\frac{x_{j}}{t}\right)}</tex><br /> <br /> ==Soft-Max==<br /> ===Плохой Soft-Max===<br /> Зададим функцию '''soft-max''' таким образом:<br /> <br /> '''soft-max'''<tex>\left ( x_{1},\ldots,x_{n}\right ) = \frac{x_{i}~\cdot~\exp \left ( x_{i} \right )}{\sum_{j}\exp \left( x_{j} \right )} = \left \langle x, \right .</tex>'''soft-arg-max'''<tex>\left . \left (x_{1},\ldots,x_{n} \right ) \right \rangle</tex><br /> <br /> Гладкая аппроксимация максимума. Математическое ожидание или средневзвешенное, где веса {{---}} экспоненты значений соответствующих элементов. Сохраняет некоторые свойства максимума:<br /> <br /> *'''soft-max'''<tex>\left ( a,a,a\right ) = a</tex><br /> *'''soft-max'''<tex>\left ( x+a,y+a,z+a\right ) =</tex> '''soft-max'''<tex>\left ( x,y,z\right ) + a</tex><br /> <br /> Заданный выше '''soft-max''' {{---}} "плохой" в связи с тем, что мы считаем средневзвешенное значение, которое всегда будет меньше максимума, что приведёт к проблемам с поиском максимума.<br /> <br /> ===Хороший Soft-Max===<br /> '''soft-max'''<tex>\left ( x_{1},\ldots,x_{n}\right ) = \log\left(\sum_{i}\exp\left(x_{i}\right)\right)</tex><br /> <br /> *Не сохраняет свойство '''soft-max'''<tex>\left(a,a,a\right)=a</tex><br /> *Производная равна '''soft-arg-max'''<br /> <br /> В этом случае сохраняется монотонность, значит, не возникнет проблем с поиском минимума и максимума.<br /> <br /> ==Связь между вариациями Soft-Max==<br /> Обозначим "плохой" '''soft-max''' как '''bad-soft-max'''. Тогда:<br /> <br /> *'''bad-soft-max'''<tex>\left(x_{1},\ldots,x_{n}\right)=\left \langle x, \right .</tex>'''soft-arg-max'''<tex>\left . \left (x_{1},\ldots,x_{n} \right ) \right \rangle</tex><br /> *<tex>\nabla</tex>'''soft-max'''<tex>\left(x_{1},\ldots,x_{n}\right)=</tex>'''soft-arg-max'''<tex>\left(x_{1},\ldots,x_{n}\right)</tex><br /> *<tex>\log\left(\right.</tex>'''soft-arg-max'''<tex>_{i}\left(x_{1},\ldots,x_{n}\right)\left.\right) = x_{i} -</tex>'''soft-max'''<tex>\left(x_{1},\ldots,x_{n}\right)</tex><br /> ==Примечание==<br /> *В большинстве статей пишется '''soft-max''', хотя вместо этого подразумевается '''soft-arg-max'''.<br /> *'''soft-arg-max''' можно называть также как обобщённая (многомерная) сигмоида<br /> *'''soft-arg-max''' является алгоритмом подсчёта весов для '''soft-max'''</div>

5.44.169.198 http://neerc.ifmo.ru/wiki/index.php?title=Soft-Max_%D0%B8_Soft-Arg-Max&diff=82581 Soft-Max и Soft-Arg-Max 2022-07-01T14:06:58Z

<p>5.44.169.198: </p> <hr /> <div>Soft-Max и Soft-Arg-Max. <br /> ==Soft-Arg-Max==<br /> Пусть есть задача мягкой классификации: Алгоритм выдает значения L1, L2, ... Ln, где n - число классов. Li - уверенность алгоритма в том, что объект принадлежит классу i; -oo <=Li <= +oo. <br /> Нужно для этих значений найти такие p1,...pn, что pi из [0, 1], а сумма pi = 1, то есть p1..pn - распределение вероятностей.<br /> Для этого возьмём экспоненту от L1..Ln; Получим числа от [0;+oo] и нормируем их:<br /> pi = exp(Li)/Sum(exp(Li))<br /> Выполняется следующее: Li <= Lj => Pi <= Pj<br /> <br /> Есть модель a, возвращающая Li. Необходимо сделать так, чтобы a возвращала pi, при этом оставаясь дифференциируемой.<br /> <tex>y = </tex> '''soft-arg-max'''<tex>\left ( x \right )</tex>, где <tex>y_{i} = \frac{\exp\left ( x_{i} \right )}{\sum_{j}\exp\left ( x_{i} \right )}</tex><br /> <tex>\frac{\partial y_{i}}{\partial x_{j}} = \begin{cases}<br /> &y_{i}\left ( 1 - y_{j} \right ),~i = j \\ <br /> &-y_{i}\cdot y_{j},~~~~~~i \neq j <br /> \end{cases} = y_{i}\left ( I\left [ i = j \right ] - y_{j}\right )</tex><br /> <br /> ===Свойства soft-arg-max===<br /> *Вычисляет по вектору чисел вектор с распределением вероятностей.<br /> *Можно интерпретировать как вероятность нахождения максимума в <tex>i</tex>-й координате.<br /> *'''soft-arg-max'''<tex>\left ( x - c,y-c,z-c\right )=</tex> '''soft-arg-max'''<tex>\left ( x,y,z\right )</tex><br /> *Предыдущее свойство используют для устойчивости вычислений. При <tex>c=max\left ( x,y,z \right )</tex><br /> <br /> ==Soft-Max==<br /> ===Плохой Soft-Max===<br /> Зададим функцию '''soft-max''' таким образом:<br /> <br /> '''soft-max'''<tex>\left ( x_{1},\ldots,x_{n}\right ) = \frac{x_{i}~\cdot~\exp \left ( x_{i} \right )}{\sum_{j}\exp \left( x_{j} \right )} = \left \langle x, \right .</tex>'''soft-arg-max'''<tex>\left . \left (x_{1},\ldots,x_{n} \right ) \right \rangle</tex><br /> <br /> Гладкая аппроксимация максимума. Математическое ожидание или средневзвешенное, где веса {{---}} экспоненты значений соответствующих элементов. Сохраняет некоторые свойства максимума:<br /> <br /> *'''soft-max'''<tex>\left ( a,a,a\right ) = a</tex><br /> *'''soft-max'''<tex>\left ( x+a,y+a,z+a\right ) =</tex> '''soft-max'''<tex>\left ( x,y,z\right ) + a</tex><br /> <br /> Заданный выше '''soft-max''' {{---}} "плохой" в связи с тем, что мы считаем средневзвешенное значение, которое всегда будет меньше максимума, что приведёт к проблемам с поиском максимума.<br /> <br /> ===Хороший Soft-Max===<br /> '''soft-max'''<tex>\left ( x_{1},\ldots,x_{n}\right ) = \log\left(\sum_{i}\exp\left(x_{i}\right)\right)</tex><br /> <br /> *Не сохраняет свойство '''soft-max'''<tex>\left(a,a,a\right)=a</tex><br /> *Производная равна '''soft-arg-max'''<br /> <br /> В этом случае сохраняется монотонность, значит, не возникнет проблем с поиском минимума и максимума.<br /> <br /> ==Связь между вариациями Soft-Max==<br /> Обозначим "плохой" '''soft-max''' как '''bad-soft-max'''. Тогда:<br /> <br /> *'''bad-soft-max'''<tex>\left(x_{1},\ldots,x_{n}\right)=\left \langle x, \right .</tex>'''soft-arg-max'''<tex>\left . \left (x_{1},\ldots,x_{n} \right ) \right \rangle</tex><br /> *<tex>\nabla</tex>'''soft-max'''<tex>\left(x_{1},\ldots,x_{n}\right)=</tex>'''soft-arg-max'''<tex>\left(x_{1},\ldots,x_{n}\right)</tex><br /> *<tex>\log\left(\right.</tex>'''soft-arg-max'''<tex>_{i}\left(x_{1},\ldots,x_{n}\right)\left.\right) = x_{i} -</tex>'''soft-max'''<tex>\left(x_{1},\ldots,x_{n}\right)</tex><br /> ==Примечание==<br /> *В большинстве статей пишется '''soft-max''', хотя вместо этого подразумевается '''soft-arg-max'''.<br /> *'''soft-arg-max''' можно называть также как обобщённая (многомерная) сигмоида<br /> *'''soft-arg-max''' является алгоритмом подсчёта весов для '''soft-max'''</div>

5.44.169.198 http://neerc.ifmo.ru/wiki/index.php?title=Soft-Max_%D0%B8_Soft-Arg-Max&diff=82580 Soft-Max и Soft-Arg-Max 2022-07-01T13:57:46Z

<p>5.44.169.198: /* Связь между вариациями Soft-Max */</p> <hr /> <div>Soft-Max и Soft-Arg-Max. <br /> ==Soft-Arg-Max==<br /> Пусть есть задача мягкой классификации: Алгоритм выдает значения L1, L2, ... Ln, где n - число классов. Li - уверенность алгоритма в том, что объект принадлежит классу i; -oo <=Li <= +oo. <br /> Нужно для этих значений найти такие p1,...pn, что pi из [0, 1], а сумма pi = 1, то есть p1..pn - распределение вероятностей.<br /> Для этого возьмём экспоненту от L1..Ln; Получим числа от [0;+oo] и нормируем их:<br /> pi = exp(Li)/Sum(exp(Li))<br /> Выполняется следующее: Li <= Lj => Pi <= Pj<br /> <br /> Есть модель a, возвращающая Li. Необходимо сделать так, чтобы a возвращала pi, при этом оставаясь дифференциируемой.<br /> <tex>y = </tex> '''soft-arg-max'''<tex>\left ( x \right )</tex>, где <tex>y_{i} = \frac{\exp\left ( x_{i} \right )}{\sum_{j}\exp\left ( x_{i} \right )}</tex><br /> <tex>\frac{\partial y_{i}}{\partial x_{j}} = \begin{cases}<br /> &y_{i}\left ( 1 - y_{j} \right ),~i = j \\ <br /> &-y_{i}\cdot y_{j},~~~~~~i \neq j <br /> \end{cases} = y_{i}\left ( I\left [ i = j \right ] - y_{j}\right )</tex><br /> <br /> ===Свойства soft-arg-max===<br /> *Вычисляет по вектору чисел вектор с распределением вероятностей.<br /> *Можно интерпретировать как вероятность нахождения максимума в <tex>i</tex>-й координате.<br /> *'''soft-arg-max'''<tex>\left ( x - c,y-c,z-c\right )=</tex> '''soft-arg-max'''<tex>\left ( x,y,z\right )</tex><br /> *Предыдущее свойство используют для устойчивости вычислений. При <tex>c=max\left ( x,y,z \right )</tex><br /> <br /> ==Soft-Max==<br /> ===Плохой Soft-Max===<br /> Зададим функцию '''soft-max''' таким образом:<br /> <br /> '''soft-max'''<tex>\left ( x_{1},\ldots,x_{n}\right ) = \frac{x_{i}~\cdot~\exp \left ( x_{i} \right )}{\sum_{j}\exp \left( x_{j} \right )} = \left \langle x, \right .</tex>'''soft-arg-max'''<tex>\left . \left (x_{1},\ldots,x_{n} \right ) \right \rangle</tex><br /> <br /> Гладкая аппроксимация максимума. Математическое ожидание или средневзвешенное, где веса {{---}} экспоненты значений соответствующих элементов. Сохраняет некоторые свойства максимума:<br /> <br /> *'''soft-max'''<tex>\left ( a,a,a\right ) = a</tex><br /> *'''soft-max'''<tex>\left ( x+a,y+a,z+a\right ) =</tex> '''soft-max'''<tex>\left ( x,y,z\right ) + a</tex><br /> <br /> Заданный выше '''soft-max''' {{---}} "плохой" в связи с тем, что мы считаем средневзвешенное значение, которое всегда будет меньше максимума, что приведёт к проблемам с поиском максимума.<br /> <br /> ===Хороший Soft-Max===<br /> '''soft-max'''<tex>\left ( x_{1},\ldots,x_{n}\right ) = \log\left(\sum_{i}\exp\left(x_{i}\right)\right)</tex><br /> <br /> *Не сохраняет свойство '''soft-max'''<tex>\left(a,a,a\right)=a</tex><br /> *Производная равна '''soft-arg-max'''<br /> <br /> В этом случае сохраняется монотонность, значит, не возникнет проблем с поиском минимума и максимума.<br /> <br /> ==Связь между вариациями Soft-Max==<br /> Обозначим "плохой" '''soft-max''' как '''bad-soft-max'''. Тогда:<br /> <br /> *'''bad-soft-max'''<tex>\left(x_{1},\ldots,x_{n}\right)=\left \langle x, \right .</tex>'''soft-arg-max'''<tex>\left . \left (x_{1},\ldots,x_{n} \right ) \right \rangle</tex><br /> *<tex>\nabla</tex>'''soft-max'''<tex>\left(x_{1},\ldots,x_{n}\right)=</tex>'''soft-arg-max'''<tex>\left(x_{1},\ldots,x_{n}\right)</tex><br /> *<tex>\log\left(\right.</tex>'''soft-arg-max'''<tex>_{i}\left(x_{1},\ldots,x_{n}\right)\left.\right) = x_{i} -</tex>'''soft-max'''<tex>\left(x_{1},\ldots,x_{n}\right)</tex></div>

5.44.169.198 http://neerc.ifmo.ru/wiki/index.php?title=Soft-Max_%D0%B8_Soft-Arg-Max&diff=82579 Soft-Max и Soft-Arg-Max 2022-07-01T13:56:37Z

<p>5.44.169.198: /* Связь между вариациями Soft-Max */</p> <hr /> <div>Soft-Max и Soft-Arg-Max. <br /> ==Soft-Arg-Max==<br /> Пусть есть задача мягкой классификации: Алгоритм выдает значения L1, L2, ... Ln, где n - число классов. Li - уверенность алгоритма в том, что объект принадлежит классу i; -oo <=Li <= +oo. <br /> Нужно для этих значений найти такие p1,...pn, что pi из [0, 1], а сумма pi = 1, то есть p1..pn - распределение вероятностей.<br /> Для этого возьмём экспоненту от L1..Ln; Получим числа от [0;+oo] и нормируем их:<br /> pi = exp(Li)/Sum(exp(Li))<br /> Выполняется следующее: Li <= Lj => Pi <= Pj<br /> <br /> Есть модель a, возвращающая Li. Необходимо сделать так, чтобы a возвращала pi, при этом оставаясь дифференциируемой.<br /> <tex>y = </tex> '''soft-arg-max'''<tex>\left ( x \right )</tex>, где <tex>y_{i} = \frac{\exp\left ( x_{i} \right )}{\sum_{j}\exp\left ( x_{i} \right )}</tex><br /> <tex>\frac{\partial y_{i}}{\partial x_{j}} = \begin{cases}<br /> &y_{i}\left ( 1 - y_{j} \right ),~i = j \\ <br /> &-y_{i}\cdot y_{j},~~~~~~i \neq j <br /> \end{cases} = y_{i}\left ( I\left [ i = j \right ] - y_{j}\right )</tex><br /> <br /> ===Свойства soft-arg-max===<br /> *Вычисляет по вектору чисел вектор с распределением вероятностей.<br /> *Можно интерпретировать как вероятность нахождения максимума в <tex>i</tex>-й координате.<br /> *'''soft-arg-max'''<tex>\left ( x - c,y-c,z-c\right )=</tex> '''soft-arg-max'''<tex>\left ( x,y,z\right )</tex><br /> *Предыдущее свойство используют для устойчивости вычислений. При <tex>c=max\left ( x,y,z \right )</tex><br /> <br /> ==Soft-Max==<br /> ===Плохой Soft-Max===<br /> Зададим функцию '''soft-max''' таким образом:<br /> <br /> '''soft-max'''<tex>\left ( x_{1},\ldots,x_{n}\right ) = \frac{x_{i}~\cdot~\exp \left ( x_{i} \right )}{\sum_{j}\exp \left( x_{j} \right )} = \left \langle x, \right .</tex>'''soft-arg-max'''<tex>\left . \left (x_{1},\ldots,x_{n} \right ) \right \rangle</tex><br /> <br /> Гладкая аппроксимация максимума. Математическое ожидание или средневзвешенное, где веса {{---}} экспоненты значений соответствующих элементов. Сохраняет некоторые свойства максимума:<br /> <br /> *'''soft-max'''<tex>\left ( a,a,a\right ) = a</tex><br /> *'''soft-max'''<tex>\left ( x+a,y+a,z+a\right ) =</tex> '''soft-max'''<tex>\left ( x,y,z\right ) + a</tex><br /> <br /> Заданный выше '''soft-max''' {{---}} "плохой" в связи с тем, что мы считаем средневзвешенное значение, которое всегда будет меньше максимума, что приведёт к проблемам с поиском максимума.<br /> <br /> ===Хороший Soft-Max===<br /> '''soft-max'''<tex>\left ( x_{1},\ldots,x_{n}\right ) = \log\left(\sum_{i}\exp\left(x_{i}\right)\right)</tex><br /> <br /> *Не сохраняет свойство '''soft-max'''<tex>\left(a,a,a\right)=a</tex><br /> *Производная равна '''soft-arg-max'''<br /> <br /> В этом случае сохраняется монотонность, значит, не возникнет проблем с поиском минимума и максимума.<br /> <br /> ==Связь между вариациями Soft-Max==<br /> Обозначим "плохой" '''soft-max''' как '''bad-soft-max'''. Тогда:<br /> <br /> *'''bad-soft-max'''<tex>\left(x_{1},\ldots,x_{n}\right)=\left \langle x, \right .</tex>'''soft-arg-max'''<tex>\left . \left (x_{1},\ldots,x_{n} \right ) \right \rangle</tex><br /> *<tex>\nabla</tex>'''soft-max'''<tex>\left(x_{1},\ldots,x_{n}\right)=</tex>'''soft-arg-max'''<tex>\left(x_{1},\ldots,x_{n}\right)</tex><br /> *<tex>\log\left(\right.</tex>'''soft-arg-max'''<tex>_{i}\left(x_{1},\ldots,x_{n}\right)\right) = x_{i} -</tex>'''soft-max'''<tex>\left(x_{1},\ldots,x_{n}\right)</tex></div>

5.44.169.198 http://neerc.ifmo.ru/wiki/index.php?title=Soft-Max_%D0%B8_Soft-Arg-Max&diff=82578 Soft-Max и Soft-Arg-Max 2022-07-01T13:54:26Z

<p>5.44.169.198: /* Связь между вариациями Soft-Max */</p> <hr /> <div>Soft-Max и Soft-Arg-Max. <br /> ==Soft-Arg-Max==<br /> Пусть есть задача мягкой классификации: Алгоритм выдает значения L1, L2, ... Ln, где n - число классов. Li - уверенность алгоритма в том, что объект принадлежит классу i; -oo <=Li <= +oo. <br /> Нужно для этих значений найти такие p1,...pn, что pi из [0, 1], а сумма pi = 1, то есть p1..pn - распределение вероятностей.<br /> Для этого возьмём экспоненту от L1..Ln; Получим числа от [0;+oo] и нормируем их:<br /> pi = exp(Li)/Sum(exp(Li))<br /> Выполняется следующее: Li <= Lj => Pi <= Pj<br /> <br /> Есть модель a, возвращающая Li. Необходимо сделать так, чтобы a возвращала pi, при этом оставаясь дифференциируемой.<br /> <tex>y = </tex> '''soft-arg-max'''<tex>\left ( x \right )</tex>, где <tex>y_{i} = \frac{\exp\left ( x_{i} \right )}{\sum_{j}\exp\left ( x_{i} \right )}</tex><br /> <tex>\frac{\partial y_{i}}{\partial x_{j}} = \begin{cases}<br /> &y_{i}\left ( 1 - y_{j} \right ),~i = j \\ <br /> &-y_{i}\cdot y_{j},~~~~~~i \neq j <br /> \end{cases} = y_{i}\left ( I\left [ i = j \right ] - y_{j}\right )</tex><br /> <br /> ===Свойства soft-arg-max===<br /> *Вычисляет по вектору чисел вектор с распределением вероятностей.<br /> *Можно интерпретировать как вероятность нахождения максимума в <tex>i</tex>-й координате.<br /> *'''soft-arg-max'''<tex>\left ( x - c,y-c,z-c\right )=</tex> '''soft-arg-max'''<tex>\left ( x,y,z\right )</tex><br /> *Предыдущее свойство используют для устойчивости вычислений. При <tex>c=max\left ( x,y,z \right )</tex><br /> <br /> ==Soft-Max==<br /> ===Плохой Soft-Max===<br /> Зададим функцию '''soft-max''' таким образом:<br /> <br /> '''soft-max'''<tex>\left ( x_{1},\ldots,x_{n}\right ) = \frac{x_{i}~\cdot~\exp \left ( x_{i} \right )}{\sum_{j}\exp \left( x_{j} \right )} = \left \langle x, \right .</tex>'''soft-arg-max'''<tex>\left . \left (x_{1},\ldots,x_{n} \right ) \right \rangle</tex><br /> <br /> Гладкая аппроксимация максимума. Математическое ожидание или средневзвешенное, где веса {{---}} экспоненты значений соответствующих элементов. Сохраняет некоторые свойства максимума:<br /> <br /> *'''soft-max'''<tex>\left ( a,a,a\right ) = a</tex><br /> *'''soft-max'''<tex>\left ( x+a,y+a,z+a\right ) =</tex> '''soft-max'''<tex>\left ( x,y,z\right ) + a</tex><br /> <br /> Заданный выше '''soft-max''' {{---}} "плохой" в связи с тем, что мы считаем средневзвешенное значение, которое всегда будет меньше максимума, что приведёт к проблемам с поиском максимума.<br /> <br /> ===Хороший Soft-Max===<br /> '''soft-max'''<tex>\left ( x_{1},\ldots,x_{n}\right ) = \log\left(\sum_{i}\exp\left(x_{i}\right)\right)</tex><br /> <br /> *Не сохраняет свойство '''soft-max'''<tex>\left(a,a,a\right)=a</tex><br /> *Производная равна '''soft-arg-max'''<br /> <br /> В этом случае сохраняется монотонность, значит, не возникнет проблем с поиском минимума и максимума.<br /> <br /> ==Связь между вариациями Soft-Max==<br /> Обозначим "плохой" '''soft-max''' как '''bad-soft-max'''. Тогда:<br /> <br /> *'''bad-soft-max'''<tex>\left(x_{1},\ldots,x_{n}\right)=\left \langle x, \right .</tex>'''soft-arg-max'''<tex>\left . \left (x_{1},\ldots,x_{n} \right ) \right \rangle</tex><br /> *<tex>\nabla</tex>'''soft-max'''<tex>\left(x_{1},\ldots,x_{n}\right)=</tex>'''soft-arg-max'''<tex>\left(x_{1},\ldots,x_{n}\right)</tex><br /> *<tex>\log\left(\right.</tex>'''soft-arg-max'''</div>

5.44.169.198 http://neerc.ifmo.ru/wiki/index.php?title=Soft-Max_%D0%B8_Soft-Arg-Max&diff=82577 Soft-Max и Soft-Arg-Max 2022-07-01T13:53:02Z

<p>5.44.169.198: /* Связь между вариациями Soft-Max */</p> <hr /> <div>Soft-Max и Soft-Arg-Max. <br /> ==Soft-Arg-Max==<br /> Пусть есть задача мягкой классификации: Алгоритм выдает значения L1, L2, ... Ln, где n - число классов. Li - уверенность алгоритма в том, что объект принадлежит классу i; -oo <=Li <= +oo. <br /> Нужно для этих значений найти такие p1,...pn, что pi из [0, 1], а сумма pi = 1, то есть p1..pn - распределение вероятностей.<br /> Для этого возьмём экспоненту от L1..Ln; Получим числа от [0;+oo] и нормируем их:<br /> pi = exp(Li)/Sum(exp(Li))<br /> Выполняется следующее: Li <= Lj => Pi <= Pj<br /> <br /> Есть модель a, возвращающая Li. Необходимо сделать так, чтобы a возвращала pi, при этом оставаясь дифференциируемой.<br /> <tex>y = </tex> '''soft-arg-max'''<tex>\left ( x \right )</tex>, где <tex>y_{i} = \frac{\exp\left ( x_{i} \right )}{\sum_{j}\exp\left ( x_{i} \right )}</tex><br /> <tex>\frac{\partial y_{i}}{\partial x_{j}} = \begin{cases}<br /> &y_{i}\left ( 1 - y_{j} \right ),~i = j \\ <br /> &-y_{i}\cdot y_{j},~~~~~~i \neq j <br /> \end{cases} = y_{i}\left ( I\left [ i = j \right ] - y_{j}\right )</tex><br /> <br /> ===Свойства soft-arg-max===<br /> *Вычисляет по вектору чисел вектор с распределением вероятностей.<br /> *Можно интерпретировать как вероятность нахождения максимума в <tex>i</tex>-й координате.<br /> *'''soft-arg-max'''<tex>\left ( x - c,y-c,z-c\right )=</tex> '''soft-arg-max'''<tex>\left ( x,y,z\right )</tex><br /> *Предыдущее свойство используют для устойчивости вычислений. При <tex>c=max\left ( x,y,z \right )</tex><br /> <br /> ==Soft-Max==<br /> ===Плохой Soft-Max===<br /> Зададим функцию '''soft-max''' таким образом:<br /> <br /> '''soft-max'''<tex>\left ( x_{1},\ldots,x_{n}\right ) = \frac{x_{i}~\cdot~\exp \left ( x_{i} \right )}{\sum_{j}\exp \left( x_{j} \right )} = \left \langle x, \right .</tex>'''soft-arg-max'''<tex>\left . \left (x_{1},\ldots,x_{n} \right ) \right \rangle</tex><br /> <br /> Гладкая аппроксимация максимума. Математическое ожидание или средневзвешенное, где веса {{---}} экспоненты значений соответствующих элементов. Сохраняет некоторые свойства максимума:<br /> <br /> *'''soft-max'''<tex>\left ( a,a,a\right ) = a</tex><br /> *'''soft-max'''<tex>\left ( x+a,y+a,z+a\right ) =</tex> '''soft-max'''<tex>\left ( x,y,z\right ) + a</tex><br /> <br /> Заданный выше '''soft-max''' {{---}} "плохой" в связи с тем, что мы считаем средневзвешенное значение, которое всегда будет меньше максимума, что приведёт к проблемам с поиском максимума.<br /> <br /> ===Хороший Soft-Max===<br /> '''soft-max'''<tex>\left ( x_{1},\ldots,x_{n}\right ) = \log\left(\sum_{i}\exp\left(x_{i}\right)\right)</tex><br /> <br /> *Не сохраняет свойство '''soft-max'''<tex>\left(a,a,a\right)=a</tex><br /> *Производная равна '''soft-arg-max'''<br /> <br /> В этом случае сохраняется монотонность, значит, не возникнет проблем с поиском минимума и максимума.<br /> <br /> ==Связь между вариациями Soft-Max==<br /> Обозначим "плохой" '''soft-max''', как '''bad-soft-max'''. Тогда:<br /> <br /> *'''bad-soft-max'''<tex>\left(x_{1},\ldots,x_{n}\right)=\left \langle x, \right .</tex>'''soft-arg-max'''<tex>\left . \left (x_{1},\ldots,x_{n} \right ) \right \rangle</tex><br /> *<tex>\nabla</tex>'''soft-max'''<tex>\left(x_{1},\ldots,x_{n}\right)=</tex>'''soft-arg-max'''<tex>\left(x_{1},\ldots,x_{n}\right)</tex></div>

5.44.169.198 http://neerc.ifmo.ru/wiki/index.php?title=Soft-Max_%D0%B8_Soft-Arg-Max&diff=82576 Soft-Max и Soft-Arg-Max 2022-07-01T13:50:07Z

<p>5.44.169.198: </p> <hr /> <div>Soft-Max и Soft-Arg-Max. <br /> ==Soft-Arg-Max==<br /> Пусть есть задача мягкой классификации: Алгоритм выдает значения L1, L2, ... Ln, где n - число классов. Li - уверенность алгоритма в том, что объект принадлежит классу i; -oo <=Li <= +oo. <br /> Нужно для этих значений найти такие p1,...pn, что pi из [0, 1], а сумма pi = 1, то есть p1..pn - распределение вероятностей.<br /> Для этого возьмём экспоненту от L1..Ln; Получим числа от [0;+oo] и нормируем их:<br /> pi = exp(Li)/Sum(exp(Li))<br /> Выполняется следующее: Li <= Lj => Pi <= Pj<br /> <br /> Есть модель a, возвращающая Li. Необходимо сделать так, чтобы a возвращала pi, при этом оставаясь дифференциируемой.<br /> <tex>y = </tex> '''soft-arg-max'''<tex>\left ( x \right )</tex>, где <tex>y_{i} = \frac{\exp\left ( x_{i} \right )}{\sum_{j}\exp\left ( x_{i} \right )}</tex><br /> <tex>\frac{\partial y_{i}}{\partial x_{j}} = \begin{cases}<br /> &y_{i}\left ( 1 - y_{j} \right ),~i = j \\ <br /> &-y_{i}\cdot y_{j},~~~~~~i \neq j <br /> \end{cases} = y_{i}\left ( I\left [ i = j \right ] - y_{j}\right )</tex><br /> <br /> ===Свойства soft-arg-max===<br /> *Вычисляет по вектору чисел вектор с распределением вероятностей.<br /> *Можно интерпретировать как вероятность нахождения максимума в <tex>i</tex>-й координате.<br /> *'''soft-arg-max'''<tex>\left ( x - c,y-c,z-c\right )=</tex> '''soft-arg-max'''<tex>\left ( x,y,z\right )</tex><br /> *Предыдущее свойство используют для устойчивости вычислений. При <tex>c=max\left ( x,y,z \right )</tex><br /> <br /> ==Soft-Max==<br /> ===Плохой Soft-Max===<br /> Зададим функцию '''soft-max''' таким образом:<br /> <br /> '''soft-max'''<tex>\left ( x_{1},\ldots,x_{n}\right ) = \frac{x_{i}~\cdot~\exp \left ( x_{i} \right )}{\sum_{j}\exp \left( x_{j} \right )} = \left \langle x, \right .</tex>'''soft-arg-max'''<tex>\left . \left (x_{1},\ldots,x_{n} \right ) \right \rangle</tex><br /> <br /> Гладкая аппроксимация максимума. Математическое ожидание или средневзвешенное, где веса {{---}} экспоненты значений соответствующих элементов. Сохраняет некоторые свойства максимума:<br /> <br /> *'''soft-max'''<tex>\left ( a,a,a\right ) = a</tex><br /> *'''soft-max'''<tex>\left ( x+a,y+a,z+a\right ) =</tex> '''soft-max'''<tex>\left ( x,y,z\right ) + a</tex><br /> <br /> Заданный выше '''soft-max''' {{---}} "плохой" в связи с тем, что мы считаем средневзвешенное значение, которое всегда будет меньше максимума, что приведёт к проблемам с поиском максимума.<br /> <br /> ===Хороший Soft-Max===<br /> '''soft-max'''<tex>\left ( x_{1},\ldots,x_{n}\right ) = \log\left(\sum_{i}\exp\left(x_{i}\right)\right)</tex><br /> <br /> *Не сохраняет свойство '''soft-max'''<tex>\left(a,a,a\right)=a</tex><br /> *Производная равна '''soft-arg-max'''<br /> <br /> В этом случае сохраняется монотонность, значит, не возникнет проблем с поиском минимума и максимума.<br /> <br /> ==Связь между вариациями Soft-Max==<br /> Обозначим "плохой" '''soft-max''', как '''bad-soft-max'''. Тогда:<br /> <br /> *'''bad-soft-max'''<tex>x_{1},\ldots,x_{n}=\left \langle x, \right .</tex>'''soft-arg-max'''<tex>\left . \left (x_{1},\ldots,x_{n} \right ) \right \rangle</tex></div>

5.44.169.198 http://neerc.ifmo.ru/wiki/index.php?title=Soft-Max_%D0%B8_Soft-Arg-Max&diff=82575 Soft-Max и Soft-Arg-Max 2022-07-01T13:47:12Z

<p>5.44.169.198: /* Хороший Soft-Max */</p> <hr /> <div>Soft-Max и Soft-Arg-Max. <br /> ==Soft-Arg-Max==<br /> Пусть есть задача мягкой классификации: Алгоритм выдает значения L1, L2, ... Ln, где n - число классов. Li - уверенность алгоритма в том, что объект принадлежит классу i; -oo <=Li <= +oo. <br /> Нужно для этих значений найти такие p1,...pn, что pi из [0, 1], а сумма pi = 1, то есть p1..pn - распределение вероятностей.<br /> Для этого возьмём экспоненту от L1..Ln; Получим числа от [0;+oo] и нормируем их:<br /> pi = exp(Li)/Sum(exp(Li))<br /> Выполняется следующее: Li <= Lj => Pi <= Pj<br /> <br /> Есть модель a, возвращающая Li. Необходимо сделать так, чтобы a возвращала pi, при этом оставаясь дифференциируемой.<br /> <tex>y = </tex> '''soft-arg-max'''<tex>\left ( x \right )</tex>, где <tex>y_{i} = \frac{\exp\left ( x_{i} \right )}{\sum_{j}\exp\left ( x_{i} \right )}</tex><br /> <tex>\frac{\partial y_{i}}{\partial x_{j}} = \begin{cases}<br /> &y_{i}\left ( 1 - y_{j} \right ),~i = j \\ <br /> &-y_{i}\cdot y_{j},~~~~~~i \neq j <br /> \end{cases} = y_{i}\left ( I\left [ i = j \right ] - y_{j}\right )</tex><br /> <br /> ===Свойства soft-arg-max===<br /> *Вычисляет по вектору чисел вектор с распределением вероятностей.<br /> *Можно интерпретировать как вероятность нахождения максимума в <tex>i</tex>-й координате.<br /> *'''soft-arg-max'''<tex>\left ( x - c,y-c,z-c\right )=</tex> '''soft-arg-max'''<tex>\left ( x,y,z\right )</tex><br /> *Предыдущее свойство используют для устойчивости вычислений. При <tex>c=max\left ( x,y,z \right )</tex><br /> <br /> ==Soft-Max==<br /> ===Плохой Soft-Max===<br /> Зададим функцию '''soft-max''' таким образом:<br /> <br /> '''soft-max'''<tex>\left ( x_{1},\ldots,x_{n}\right ) = \frac{x_{i}~\cdot~\exp \left ( x_{i} \right )}{\sum_{j}\exp \left( x_{j} \right )} = \left \langle x, \right .</tex>'''soft-arg-max'''<tex>\left . \left (x_{1},\ldots,x_{n} \right ) \right \rangle</tex><br /> <br /> Гладкая аппроксимация максимума. Математическое ожидание или средневзвешенное, где веса {{---}} экспоненты значений соответствующих элементов. Сохраняет некоторые свойства максимума:<br /> <br /> *'''soft-max'''<tex>\left ( a,a,a\right ) = a</tex><br /> *'''soft-max'''<tex>\left ( x+a,y+a,z+a\right ) =</tex> '''soft-max'''<tex>\left ( x,y,z\right ) + a</tex><br /> <br /> Заданный выше '''soft-max''' {{---}} "плохой" в связи с тем, что мы считаем средневзвешенное значение, которое всегда будет меньше максимума, что приведёт к проблемам с поиском максимума.<br /> <br /> ===Хороший Soft-Max===<br /> '''soft-max'''<tex>\left ( x_{1},\ldots,x_{n}\right ) = \log\left(\sum_{i}\exp\left(x_{i}\right)\right)</tex><br /> <br /> *Не сохраняет свойство '''soft-max'''<tex>\left(a,a,a\right)=a</tex><br /> *Производная равна '''soft-arg-max'''<br /> <br /> В этом случае сохраняется монотонность, значит, не возникнет проблем с поиском минимума и максимума.</div>

5.44.169.198 http://neerc.ifmo.ru/wiki/index.php?title=Soft-Max_%D0%B8_Soft-Arg-Max&diff=82574 Soft-Max и Soft-Arg-Max 2022-07-01T13:46:48Z

<p>5.44.169.198: /* Хороший Soft-Max */</p> <hr /> <div>Soft-Max и Soft-Arg-Max. <br /> ==Soft-Arg-Max==<br /> Пусть есть задача мягкой классификации: Алгоритм выдает значения L1, L2, ... Ln, где n - число классов. Li - уверенность алгоритма в том, что объект принадлежит классу i; -oo <=Li <= +oo. <br /> Нужно для этих значений найти такие p1,...pn, что pi из [0, 1], а сумма pi = 1, то есть p1..pn - распределение вероятностей.<br /> Для этого возьмём экспоненту от L1..Ln; Получим числа от [0;+oo] и нормируем их:<br /> pi = exp(Li)/Sum(exp(Li))<br /> Выполняется следующее: Li <= Lj => Pi <= Pj<br /> <br /> Есть модель a, возвращающая Li. Необходимо сделать так, чтобы a возвращала pi, при этом оставаясь дифференциируемой.<br /> <tex>y = </tex> '''soft-arg-max'''<tex>\left ( x \right )</tex>, где <tex>y_{i} = \frac{\exp\left ( x_{i} \right )}{\sum_{j}\exp\left ( x_{i} \right )}</tex><br /> <tex>\frac{\partial y_{i}}{\partial x_{j}} = \begin{cases}<br /> &y_{i}\left ( 1 - y_{j} \right ),~i = j \\ <br /> &-y_{i}\cdot y_{j},~~~~~~i \neq j <br /> \end{cases} = y_{i}\left ( I\left [ i = j \right ] - y_{j}\right )</tex><br /> <br /> ===Свойства soft-arg-max===<br /> *Вычисляет по вектору чисел вектор с распределением вероятностей.<br /> *Можно интерпретировать как вероятность нахождения максимума в <tex>i</tex>-й координате.<br /> *'''soft-arg-max'''<tex>\left ( x - c,y-c,z-c\right )=</tex> '''soft-arg-max'''<tex>\left ( x,y,z\right )</tex><br /> *Предыдущее свойство используют для устойчивости вычислений. При <tex>c=max\left ( x,y,z \right )</tex><br /> <br /> ==Soft-Max==<br /> ===Плохой Soft-Max===<br /> Зададим функцию '''soft-max''' таким образом:<br /> <br /> '''soft-max'''<tex>\left ( x_{1},\ldots,x_{n}\right ) = \frac{x_{i}~\cdot~\exp \left ( x_{i} \right )}{\sum_{j}\exp \left( x_{j} \right )} = \left \langle x, \right .</tex>'''soft-arg-max'''<tex>\left . \left (x_{1},\ldots,x_{n} \right ) \right \rangle</tex><br /> <br /> Гладкая аппроксимация максимума. Математическое ожидание или средневзвешенное, где веса {{---}} экспоненты значений соответствующих элементов. Сохраняет некоторые свойства максимума:<br /> <br /> *'''soft-max'''<tex>\left ( a,a,a\right ) = a</tex><br /> *'''soft-max'''<tex>\left ( x+a,y+a,z+a\right ) =</tex> '''soft-max'''<tex>\left ( x,y,z\right ) + a</tex><br /> <br /> Заданный выше '''soft-max''' {{---}} "плохой" в связи с тем, что мы считаем средневзвешенное значение, которое всегда будет меньше максимума, что приведёт к проблемам с поиском максимума.<br /> <br /> ===Хороший Soft-Max===<br /> '''soft-max'''<tex>\left ( x_{1},\ldots,x_{n}\right ) = \log\left(\sum_{i}\exp\left(x_{i}\right)\right)</tex><br /> <br /> *Не сохраняет свойство '''soft-max'''<tex>\left(a,a,a\right)=a</tex><br /> *Производная равна '''soft-arg-max'''<br /> <br /> В этом случае сохраняется монотонность, и не возникнет проблем с поиском минимума и максимума.</div>

5.44.169.198 http://neerc.ifmo.ru/wiki/index.php?title=Soft-Max_%D0%B8_Soft-Arg-Max&diff=82573 Soft-Max и Soft-Arg-Max 2022-07-01T13:46:15Z

<p>5.44.169.198: /* Soft-Max */</p> <hr /> <div>Soft-Max и Soft-Arg-Max. <br /> ==Soft-Arg-Max==<br /> Пусть есть задача мягкой классификации: Алгоритм выдает значения L1, L2, ... Ln, где n - число классов. Li - уверенность алгоритма в том, что объект принадлежит классу i; -oo <=Li <= +oo. <br /> Нужно для этих значений найти такие p1,...pn, что pi из [0, 1], а сумма pi = 1, то есть p1..pn - распределение вероятностей.<br /> Для этого возьмём экспоненту от L1..Ln; Получим числа от [0;+oo] и нормируем их:<br /> pi = exp(Li)/Sum(exp(Li))<br /> Выполняется следующее: Li <= Lj => Pi <= Pj<br /> <br /> Есть модель a, возвращающая Li. Необходимо сделать так, чтобы a возвращала pi, при этом оставаясь дифференциируемой.<br /> <tex>y = </tex> '''soft-arg-max'''<tex>\left ( x \right )</tex>, где <tex>y_{i} = \frac{\exp\left ( x_{i} \right )}{\sum_{j}\exp\left ( x_{i} \right )}</tex><br /> <tex>\frac{\partial y_{i}}{\partial x_{j}} = \begin{cases}<br /> &y_{i}\left ( 1 - y_{j} \right ),~i = j \\ <br /> &-y_{i}\cdot y_{j},~~~~~~i \neq j <br /> \end{cases} = y_{i}\left ( I\left [ i = j \right ] - y_{j}\right )</tex><br /> <br /> ===Свойства soft-arg-max===<br /> *Вычисляет по вектору чисел вектор с распределением вероятностей.<br /> *Можно интерпретировать как вероятность нахождения максимума в <tex>i</tex>-й координате.<br /> *'''soft-arg-max'''<tex>\left ( x - c,y-c,z-c\right )=</tex> '''soft-arg-max'''<tex>\left ( x,y,z\right )</tex><br /> *Предыдущее свойство используют для устойчивости вычислений. При <tex>c=max\left ( x,y,z \right )</tex><br /> <br /> ==Soft-Max==<br /> ===Плохой Soft-Max===<br /> Зададим функцию '''soft-max''' таким образом:<br /> <br /> '''soft-max'''<tex>\left ( x_{1},\ldots,x_{n}\right ) = \frac{x_{i}~\cdot~\exp \left ( x_{i} \right )}{\sum_{j}\exp \left( x_{j} \right )} = \left \langle x, \right .</tex>'''soft-arg-max'''<tex>\left . \left (x_{1},\ldots,x_{n} \right ) \right \rangle</tex><br /> <br /> Гладкая аппроксимация максимума. Математическое ожидание или средневзвешенное, где веса {{---}} экспоненты значений соответствующих элементов. Сохраняет некоторые свойства максимума:<br /> <br /> *'''soft-max'''<tex>\left ( a,a,a\right ) = a</tex><br /> *'''soft-max'''<tex>\left ( x+a,y+a,z+a\right ) =</tex> '''soft-max'''<tex>\left ( x,y,z\right ) + a</tex><br /> <br /> Заданный выше '''soft-max''' {{---}} "плохой" в связи с тем, что мы считаем средневзвешенное значение, которое всегда будет меньше максимума, что приведёт к проблемам с поиском максимума.<br /> <br /> ===Хороший Soft-Max===<br /> '''soft-max'''<tex>\left ( x_{1},\ldots,x_{n}\right ) = \log\left(\sum_{i}\exp\left(x_{i}\right)\right)</tex><br /> <br /> *Не сохраняет свойство '''soft-max'''<tex>\left(a,a,a\right)=a</tex><br /> *Производная равна '''soft-arg-max'''<br /> <br /> В этом случае сохраняется монотонность.</div>

5.44.169.198 http://neerc.ifmo.ru/wiki/index.php?title=Soft-Max_%D0%B8_Soft-Arg-Max&diff=82572 Soft-Max и Soft-Arg-Max 2022-07-01T13:43:04Z

<p>5.44.169.198: /* Хороший Soft-Max */</p> <hr /> <div>Soft-Max и Soft-Arg-Max. <br /> ==Soft-Arg-Max==<br /> Пусть есть задача мягкой классификации: Алгоритм выдает значения L1, L2, ... Ln, где n - число классов. Li - уверенность алгоритма в том, что объект принадлежит классу i; -oo <=Li <= +oo. <br /> Нужно для этих значений найти такие p1,...pn, что pi из [0, 1], а сумма pi = 1, то есть p1..pn - распределение вероятностей.<br /> Для этого возьмём экспоненту от L1..Ln; Получим числа от [0;+oo] и нормируем их:<br /> pi = exp(Li)/Sum(exp(Li))<br /> Выполняется следующее: Li <= Lj => Pi <= Pj<br /> <br /> Есть модель a, возвращающая Li. Необходимо сделать так, чтобы a возвращала pi, при этом оставаясь дифференциируемой.<br /> <tex>y = </tex> '''soft-arg-max'''<tex>\left ( x \right )</tex>, где <tex>y_{i} = \frac{\exp\left ( x_{i} \right )}{\sum_{j}\exp\left ( x_{i} \right )}</tex><br /> <tex>\frac{\partial y_{i}}{\partial x_{j}} = \begin{cases}<br /> &y_{i}\left ( 1 - y_{j} \right ),~i = j \\ <br /> &-y_{i}\cdot y_{j},~~~~~~i \neq j <br /> \end{cases} = y_{i}\left ( I\left [ i = j \right ] - y_{j}\right )</tex><br /> <br /> ===Свойства soft-arg-max===<br /> *Вычисляет по вектору чисел вектор с распределением вероятностей.<br /> *Можно интерпретировать как вероятность нахождения максимума в <tex>i</tex>-й координате.<br /> *'''soft-arg-max'''<tex>\left ( x - c,y-c,z-c\right )=</tex> '''soft-arg-max'''<tex>\left ( x,y,z\right )</tex><br /> *Предыдущее свойство используют для устойчивости вычислений. При <tex>c=max\left ( x,y,z \right )</tex><br /> <br /> ==Soft-Max==<br /> ===Плохой Soft-Max===<br /> Зададим функцию '''soft-max''' таким образом:<br /> <br /> '''soft-max'''<tex>\left ( x_{1},\ldots,x_{n}\right ) = \frac{x_{i}~\cdot~\exp \left ( x_{i} \right )}{\sum_{j}\exp \left( x_{j} \right )} = \left \langle x, \right .</tex>'''soft-arg-max'''<tex>\left . \left (x_{1},\ldots,x_{n} \right ) \right \rangle</tex><br /> <br /> Гладкая аппроксимация максимума. Математическое ожидание или средневзвешенное, где веса {{---}} экспоненты значений соответствующих элементов. Сохраняет некоторые свойства максимума:<br /> <br /> *'''soft-max'''<tex>\left ( a,a,a\right ) = a</tex><br /> *'''soft-max'''<tex>\left ( x+a,y+a,z+a\right ) =</tex> '''soft-max'''<tex>\left ( x,y,z\right ) + a</tex><br /> <br /> Заданный выше '''soft-max''' {{---}} "плохой" в связи с тем, что мы считаем средневзвешенное значение, которое всегда будет меньше максимума, что приведёт к проблемам с поиском максимума.<br /> <br /> ===Хороший Soft-Max===<br /> '''soft-max'''<tex>\left ( x_{1},\ldots,x_{n}\right ) = \log\left(\sum_{i}\exp\left(x_{i}\right)\right)</tex><br /> <br /> *Не сохраняет свойство '''soft-max'''<tex>\left(a,a,a\right)=a</tex><br /> *Производная равна '''soft-arg-max'''</div>

5.44.169.198 http://neerc.ifmo.ru/wiki/index.php?title=Soft-Max_%D0%B8_Soft-Arg-Max&diff=82571 Soft-Max и Soft-Arg-Max 2022-07-01T13:40:54Z

<p>5.44.169.198: /* Soft-Max */</p> <hr /> <div>Soft-Max и Soft-Arg-Max. <br /> ==Soft-Arg-Max==<br /> Пусть есть задача мягкой классификации: Алгоритм выдает значения L1, L2, ... Ln, где n - число классов. Li - уверенность алгоритма в том, что объект принадлежит классу i; -oo <=Li <= +oo. <br /> Нужно для этих значений найти такие p1,...pn, что pi из [0, 1], а сумма pi = 1, то есть p1..pn - распределение вероятностей.<br /> Для этого возьмём экспоненту от L1..Ln; Получим числа от [0;+oo] и нормируем их:<br /> pi = exp(Li)/Sum(exp(Li))<br /> Выполняется следующее: Li <= Lj => Pi <= Pj<br /> <br /> Есть модель a, возвращающая Li. Необходимо сделать так, чтобы a возвращала pi, при этом оставаясь дифференциируемой.<br /> <tex>y = </tex> '''soft-arg-max'''<tex>\left ( x \right )</tex>, где <tex>y_{i} = \frac{\exp\left ( x_{i} \right )}{\sum_{j}\exp\left ( x_{i} \right )}</tex><br /> <tex>\frac{\partial y_{i}}{\partial x_{j}} = \begin{cases}<br /> &y_{i}\left ( 1 - y_{j} \right ),~i = j \\ <br /> &-y_{i}\cdot y_{j},~~~~~~i \neq j <br /> \end{cases} = y_{i}\left ( I\left [ i = j \right ] - y_{j}\right )</tex><br /> <br /> ===Свойства soft-arg-max===<br /> *Вычисляет по вектору чисел вектор с распределением вероятностей.<br /> *Можно интерпретировать как вероятность нахождения максимума в <tex>i</tex>-й координате.<br /> *'''soft-arg-max'''<tex>\left ( x - c,y-c,z-c\right )=</tex> '''soft-arg-max'''<tex>\left ( x,y,z\right )</tex><br /> *Предыдущее свойство используют для устойчивости вычислений. При <tex>c=max\left ( x,y,z \right )</tex><br /> <br /> ==Soft-Max==<br /> ===Плохой Soft-Max===<br /> Зададим функцию '''soft-max''' таким образом:<br /> <br /> '''soft-max'''<tex>\left ( x_{1},\ldots,x_{n}\right ) = \frac{x_{i}~\cdot~\exp \left ( x_{i} \right )}{\sum_{j}\exp \left( x_{j} \right )} = \left \langle x, \right .</tex>'''soft-arg-max'''<tex>\left . \left (x_{1},\ldots,x_{n} \right ) \right \rangle</tex><br /> <br /> Гладкая аппроксимация максимума. Математическое ожидание или средневзвешенное, где веса {{---}} экспоненты значений соответствующих элементов. Сохраняет некоторые свойства максимума:<br /> <br /> *'''soft-max'''<tex>\left ( a,a,a\right ) = a</tex><br /> *'''soft-max'''<tex>\left ( x+a,y+a,z+a\right ) =</tex> '''soft-max'''<tex>\left ( x,y,z\right ) + a</tex><br /> <br /> Заданный выше '''soft-max''' {{---}} "плохой" в связи с тем, что мы считаем средневзвешенное значение, которое всегда будет меньше максимума, что приведёт к проблемам с поиском максимума.<br /> <br /> ===Хороший Soft-Max===<br /> '''soft-max'''<tex>\left ( x_{1},\ldots,x_{n}\right ) = \log\left(\sum_{i}\exp\left(x_{i}\right)\right)</tex></div>

5.44.169.198 http://neerc.ifmo.ru/wiki/index.php?title=Soft-Max_%D0%B8_Soft-Arg-Max&diff=82570 Soft-Max и Soft-Arg-Max 2022-07-01T13:32:59Z

<p>5.44.169.198: /* Плохой Soft-Max */</p> <hr /> <div>Soft-Max и Soft-Arg-Max. <br /> ==Soft-Arg-Max==<br /> Пусть есть задача мягкой классификации: Алгоритм выдает значения L1, L2, ... Ln, где n - число классов. Li - уверенность алгоритма в том, что объект принадлежит классу i; -oo <=Li <= +oo. <br /> Нужно для этих значений найти такие p1,...pn, что pi из [0, 1], а сумма pi = 1, то есть p1..pn - распределение вероятностей.<br /> Для этого возьмём экспоненту от L1..Ln; Получим числа от [0;+oo] и нормируем их:<br /> pi = exp(Li)/Sum(exp(Li))<br /> Выполняется следующее: Li <= Lj => Pi <= Pj<br /> <br /> Есть модель a, возвращающая Li. Необходимо сделать так, чтобы a возвращала pi, при этом оставаясь дифференциируемой.<br /> <tex>y = </tex> '''soft-arg-max'''<tex>\left ( x \right )</tex>, где <tex>y_{i} = \frac{\exp\left ( x_{i} \right )}{\sum_{j}\exp\left ( x_{i} \right )}</tex><br /> <tex>\frac{\partial y_{i}}{\partial x_{j}} = \begin{cases}<br /> &y_{i}\left ( 1 - y_{j} \right ),~i = j \\ <br /> &-y_{i}\cdot y_{j},~~~~~~i \neq j <br /> \end{cases} = y_{i}\left ( I\left [ i = j \right ] - y_{j}\right )</tex><br /> <br /> ===Свойства soft-arg-max===<br /> *Вычисляет по вектору чисел вектор с распределением вероятностей.<br /> *Можно интерпретировать как вероятность нахождения максимума в <tex>i</tex>-й координате.<br /> *'''soft-arg-max'''<tex>\left ( x - c,y-c,z-c\right )=</tex> '''soft-arg-max'''<tex>\left ( x,y,z\right )</tex><br /> *Предыдущее свойство используют для устойчивости вычислений. При <tex>c=max\left ( x,y,z \right )</tex><br /> <br /> ==Soft-Max==<br /> ===Плохой Soft-Max===<br /> Зададим функцию '''soft-max''' таким образом:<br /> <br /> '''soft-max'''<tex>\left ( x_{1},\ldots,x_{n}\right ) = \frac{x_{i}~\cdot~\exp \left ( x_{i} \right )}{\sum_{j}\exp \left( x_{j} \right )} = \left \langle x, \right .</tex>'''soft-arg-max'''<tex>\left . \left (x_{1},\ldots,x_{n} \right ) \right \rangle</tex><br /> <br /> Гладкая аппроксимация максимума. Математическое ожидание или средневзвешенное, где веса {{---}} экспоненты значений соответствующих элементов. Сохраняет некоторые свойства максимума:<br /> <br /> *'''soft-max'''<tex>\left ( a,a,a\right ) = a</tex><br /> *'''soft-max'''<tex>\left ( x+a,y+a,z+a\right ) =</tex> '''soft-max'''<tex>\left ( x,y,z\right ) + a</tex><br /> <br /> Заданный выше '''soft-max''' {{---}} "плохой" в связи с тем, что мы считаем средневзвешенное значение, которое всегда будет меньше максимума, что приведёт к проблемам с поиском максимума.<br /> <br /> ===Хороший Soft-Max===</div>

5.44.169.198 http://neerc.ifmo.ru/wiki/index.php?title=Soft-Max_%D0%B8_Soft-Arg-Max&diff=82569 Soft-Max и Soft-Arg-Max 2022-07-01T13:26:38Z

<p>5.44.169.198: /* Soft-Max */</p> <hr /> <div>Soft-Max и Soft-Arg-Max. <br /> ==Soft-Arg-Max==<br /> Пусть есть задача мягкой классификации: Алгоритм выдает значения L1, L2, ... Ln, где n - число классов. Li - уверенность алгоритма в том, что объект принадлежит классу i; -oo <=Li <= +oo. <br /> Нужно для этих значений найти такие p1,...pn, что pi из [0, 1], а сумма pi = 1, то есть p1..pn - распределение вероятностей.<br /> Для этого возьмём экспоненту от L1..Ln; Получим числа от [0;+oo] и нормируем их:<br /> pi = exp(Li)/Sum(exp(Li))<br /> Выполняется следующее: Li <= Lj => Pi <= Pj<br /> <br /> Есть модель a, возвращающая Li. Необходимо сделать так, чтобы a возвращала pi, при этом оставаясь дифференциируемой.<br /> <tex>y = </tex> '''soft-arg-max'''<tex>\left ( x \right )</tex>, где <tex>y_{i} = \frac{\exp\left ( x_{i} \right )}{\sum_{j}\exp\left ( x_{i} \right )}</tex><br /> <tex>\frac{\partial y_{i}}{\partial x_{j}} = \begin{cases}<br /> &y_{i}\left ( 1 - y_{j} \right ),~i = j \\ <br /> &-y_{i}\cdot y_{j},~~~~~~i \neq j <br /> \end{cases} = y_{i}\left ( I\left [ i = j \right ] - y_{j}\right )</tex><br /> <br /> ===Свойства soft-arg-max===<br /> *Вычисляет по вектору чисел вектор с распределением вероятностей.<br /> *Можно интерпретировать как вероятность нахождения максимума в <tex>i</tex>-й координате.<br /> *'''soft-arg-max'''<tex>\left ( x - c,y-c,z-c\right )=</tex> '''soft-arg-max'''<tex>\left ( x,y,z\right )</tex><br /> *Предыдущее свойство используют для устойчивости вычислений. При <tex>c=max\left ( x,y,z \right )</tex><br /> <br /> ==Soft-Max==<br /> ===Плохой Soft-Max===<br /> '''soft-max'''<tex>\left ( x_{1},\ldots,x_{n}\right ) = \frac{x_{i}~\cdot~\exp \left ( x_{i} \right )}{\sum_{j}\exp \left( x_{j} \right )} = \left \langle x, \right .</tex>'''soft-arg-max'''<tex>\left . \left (x_{1},\ldots,x_{n} \right ) \right \rangle</tex><br /> <br /> Гладкая аппроксимация максимума. Математическое ожидание или средневзвешенное, где веса {{---}} экспоненты значений соответствующих элементов. Сохраняет некоторые свойства максимума:<br /> *'''soft-max'''<tex>\left ( a,a,a\right ) = a</tex><br /> *'''soft-max'''<tex>\left ( x+a,y+a,z+a\right ) =</tex> '''soft-max'''<tex>\left ( x,y,z\right ) + a</tex></div>

5.44.169.198 http://neerc.ifmo.ru/wiki/index.php?title=Soft-Max_%D0%B8_Soft-Arg-Max&diff=82568 Soft-Max и Soft-Arg-Max 2022-07-01T13:26:09Z

<p>5.44.169.198: /* Плохой Soft-Max */</p> <hr /> <div>Soft-Max и Soft-Arg-Max. <br /> ==Soft-Arg-Max==<br /> Пусть есть задача мягкой классификации: Алгоритм выдает значения L1, L2, ... Ln, где n - число классов. Li - уверенность алгоритма в том, что объект принадлежит классу i; -oo <=Li <= +oo. <br /> Нужно для этих значений найти такие p1,...pn, что pi из [0, 1], а сумма pi = 1, то есть p1..pn - распределение вероятностей.<br /> Для этого возьмём экспоненту от L1..Ln; Получим числа от [0;+oo] и нормируем их:<br /> pi = exp(Li)/Sum(exp(Li))<br /> Выполняется следующее: Li <= Lj => Pi <= Pj<br /> <br /> Есть модель a, возвращающая Li. Необходимо сделать так, чтобы a возвращала pi, при этом оставаясь дифференциируемой.<br /> <tex>y = </tex> '''soft-arg-max'''<tex>\left ( x \right )</tex>, где <tex>y_{i} = \frac{\exp\left ( x_{i} \right )}{\sum_{j}\exp\left ( x_{i} \right )}</tex><br /> <tex>\frac{\partial y_{i}}{\partial x_{j}} = \begin{cases}<br /> &y_{i}\left ( 1 - y_{j} \right ),~i = j \\ <br /> &-y_{i}\cdot y_{j},~~~~~~i \neq j <br /> \end{cases} = y_{i}\left ( I\left [ i = j \right ] - y_{j}\right )</tex><br /> <br /> ===Свойства soft-arg-max===<br /> *Вычисляет по вектору чисел вектор с распределением вероятностей.<br /> *Можно интерпретировать как вероятность нахождения максимума в <tex>i</tex>-й координате.<br /> *'''soft-arg-max'''<tex>\left ( x - c,y-c,z-c\right )=</tex> '''soft-arg-max'''<tex>\left ( x,y,z\right )</tex><br /> *Предыдущее свойство используют для устойчивости вычислений. При <tex>c=max\left ( x,y,z \right )</tex><br /> <br /> ==Soft-Max==<br /> ===Плохой Soft-Max===<br /> '''soft-max'''<tex>\left ( x_{1},\ldots,x_{n}\right ) = \frac{x_{i}~\cdot~\exp \left ( x_{i} \right )}{\sum_{j}\exp \left( x_{j} \right )} = \left \langle x, \right .</tex>'''soft-arg-max'''<tex>\left . \left (x_{1},\ldots,x_{n} \right ) \right \rangle</tex><br /> <br /> Гладкая аппроксимация максимума. Математическое ожидание или средневзвешенное, где веса {{{-}}} экспоненты значений соответствующих элементов. Сохраняет некоторые свойства максимума:<br /> *'''soft-max'''<tex>\left ( a,a,a\right ) = a</tex><br /> *'''soft-max'''<tex>\left ( x+a,y+a,z+a\right ) =</tex> '''soft-max'''<tex>\left ( x,y,z\right ) + a</tex></div>

5.44.169.198 http://neerc.ifmo.ru/wiki/index.php?title=Soft-Max_%D0%B8_Soft-Arg-Max&diff=82567 Soft-Max и Soft-Arg-Max 2022-07-01T13:22:37Z

<p>5.44.169.198: /* Soft-Max */</p> <hr /> <div>Soft-Max и Soft-Arg-Max. <br /> ==Soft-Arg-Max==<br /> Пусть есть задача мягкой классификации: Алгоритм выдает значения L1, L2, ... Ln, где n - число классов. Li - уверенность алгоритма в том, что объект принадлежит классу i; -oo <=Li <= +oo. <br /> Нужно для этих значений найти такие p1,...pn, что pi из [0, 1], а сумма pi = 1, то есть p1..pn - распределение вероятностей.<br /> Для этого возьмём экспоненту от L1..Ln; Получим числа от [0;+oo] и нормируем их:<br /> pi = exp(Li)/Sum(exp(Li))<br /> Выполняется следующее: Li <= Lj => Pi <= Pj<br /> <br /> Есть модель a, возвращающая Li. Необходимо сделать так, чтобы a возвращала pi, при этом оставаясь дифференциируемой.<br /> <tex>y = </tex> '''soft-arg-max'''<tex>\left ( x \right )</tex>, где <tex>y_{i} = \frac{\exp\left ( x_{i} \right )}{\sum_{j}\exp\left ( x_{i} \right )}</tex><br /> <tex>\frac{\partial y_{i}}{\partial x_{j}} = \begin{cases}<br /> &y_{i}\left ( 1 - y_{j} \right ),~i = j \\ <br /> &-y_{i}\cdot y_{j},~~~~~~i \neq j <br /> \end{cases} = y_{i}\left ( I\left [ i = j \right ] - y_{j}\right )</tex><br /> <br /> ===Свойства soft-arg-max===<br /> *Вычисляет по вектору чисел вектор с распределением вероятностей.<br /> *Можно интерпретировать как вероятность нахождения максимума в <tex>i</tex>-й координате.<br /> *'''soft-arg-max'''<tex>\left ( x - c,y-c,z-c\right )=</tex> '''soft-arg-max'''<tex>\left ( x,y,z\right )</tex><br /> *Предыдущее свойство используют для устойчивости вычислений. При <tex>c=max\left ( x,y,z \right )</tex><br /> <br /> ==Soft-Max==<br /> ===Плохой Soft-Max===<br /> '''soft-max'''<tex>\left ( x_{1},\ldots,x_{n}\right ) = \frac{x_{i}~\cdot~\exp \left ( x_{i} \right )}{\sum_{j}\exp \left( x_{j} \right )} = \left \langle x, \right .</tex>'''soft-arg-max'''<tex>\left . \left (x_{1},\ldots,x_{n} \right ) \right \rangle</tex></div>

5.44.169.198 http://neerc.ifmo.ru/wiki/index.php?title=Soft-Max_%D0%B8_Soft-Arg-Max&diff=82566 Soft-Max и Soft-Arg-Max 2022-07-01T13:22:06Z

<p>5.44.169.198: /* Soft-Max */</p> <hr /> <div>Soft-Max и Soft-Arg-Max. <br /> ==Soft-Arg-Max==<br /> Пусть есть задача мягкой классификации: Алгоритм выдает значения L1, L2, ... Ln, где n - число классов. Li - уверенность алгоритма в том, что объект принадлежит классу i; -oo <=Li <= +oo. <br /> Нужно для этих значений найти такие p1,...pn, что pi из [0, 1], а сумма pi = 1, то есть p1..pn - распределение вероятностей.<br /> Для этого возьмём экспоненту от L1..Ln; Получим числа от [0;+oo] и нормируем их:<br /> pi = exp(Li)/Sum(exp(Li))<br /> Выполняется следующее: Li <= Lj => Pi <= Pj<br /> <br /> Есть модель a, возвращающая Li. Необходимо сделать так, чтобы a возвращала pi, при этом оставаясь дифференциируемой.<br /> <tex>y = </tex> '''soft-arg-max'''<tex>\left ( x \right )</tex>, где <tex>y_{i} = \frac{\exp\left ( x_{i} \right )}{\sum_{j}\exp\left ( x_{i} \right )}</tex><br /> <tex>\frac{\partial y_{i}}{\partial x_{j}} = \begin{cases}<br /> &y_{i}\left ( 1 - y_{j} \right ),~i = j \\ <br /> &-y_{i}\cdot y_{j},~~~~~~i \neq j <br /> \end{cases} = y_{i}\left ( I\left [ i = j \right ] - y_{j}\right )</tex><br /> <br /> ===Свойства soft-arg-max===<br /> *Вычисляет по вектору чисел вектор с распределением вероятностей.<br /> *Можно интерпретировать как вероятность нахождения максимума в <tex>i</tex>-й координате.<br /> *'''soft-arg-max'''<tex>\left ( x - c,y-c,z-c\right )=</tex> '''soft-arg-max'''<tex>\left ( x,y,z\right )</tex><br /> *Предыдущее свойство используют для устойчивости вычислений. При <tex>c=max\left ( x,y,z \right )</tex><br /> <br /> ==Soft-Max==<br /> ===Плохой Soft-Max===<br /> '''soft-max'''<tex>\left ( x_{1},\ldots,x_{n}\right ) = \frac{x_{i}\cdot \exp \left ( x_{i} \right )}{\sum_{j}\exp \left( x_{j} \right )} = \left \langle x, \right .</tex>'''soft-arg-max'''<tex>\left . \left (x_{1},\ldots,x_{n} \right ) \right \rangle</tex></div>

5.44.169.198 http://neerc.ifmo.ru/wiki/index.php?title=Soft-Max_%D0%B8_Soft-Arg-Max&diff=82565 Soft-Max и Soft-Arg-Max 2022-07-01T13:15:45Z

<p>5.44.169.198: /* Soft-Arg-Max */</p> <hr /> <div>Soft-Max и Soft-Arg-Max. <br /> ==Soft-Arg-Max==<br /> Пусть есть задача мягкой классификации: Алгоритм выдает значения L1, L2, ... Ln, где n - число классов. Li - уверенность алгоритма в том, что объект принадлежит классу i; -oo <=Li <= +oo. <br /> Нужно для этих значений найти такие p1,...pn, что pi из [0, 1], а сумма pi = 1, то есть p1..pn - распределение вероятностей.<br /> Для этого возьмём экспоненту от L1..Ln; Получим числа от [0;+oo] и нормируем их:<br /> pi = exp(Li)/Sum(exp(Li))<br /> Выполняется следующее: Li <= Lj => Pi <= Pj<br /> <br /> Есть модель a, возвращающая Li. Необходимо сделать так, чтобы a возвращала pi, при этом оставаясь дифференциируемой.<br /> <tex>y = </tex> '''soft-arg-max'''<tex>\left ( x \right )</tex>, где <tex>y_{i} = \frac{\exp\left ( x_{i} \right )}{\sum_{j}\exp\left ( x_{i} \right )}</tex><br /> <tex>\frac{\partial y_{i}}{\partial x_{j}} = \begin{cases}<br /> &y_{i}\left ( 1 - y_{j} \right ),~i = j \\ <br /> &-y_{i}\cdot y_{j},~~~~~~i \neq j <br /> \end{cases} = y_{i}\left ( I\left [ i = j \right ] - y_{j}\right )</tex><br /> <br /> ===Свойства soft-arg-max===<br /> *Вычисляет по вектору чисел вектор с распределением вероятностей.<br /> *Можно интерпретировать как вероятность нахождения максимума в <tex>i</tex>-й координате.<br /> *'''soft-arg-max'''<tex>\left ( x - c,y-c,z-c\right )=</tex> '''soft-arg-max'''<tex>\left ( x,y,z\right )</tex><br /> *Предыдущее свойство используют для устойчивости вычислений. При <tex>c=max\left ( x,y,z \right )</tex><br /> <br /> ==Soft-Max==</div>

5.44.169.198 http://neerc.ifmo.ru/wiki/index.php?title=Soft-Max_%D0%B8_Soft-Arg-Max&diff=82564 Soft-Max и Soft-Arg-Max 2022-07-01T13:15:16Z

<p>5.44.169.198: /* Soft-Arg-Max */</p> <hr /> <div>Soft-Max и Soft-Arg-Max. <br /> ==Soft-Arg-Max==<br /> Пусть есть задача мягкой классификации: Алгоритм выдает значения L1, L2, ... Ln, где n - число классов. Li - уверенность алгоритма в том, что объект принадлежит классу i; -oo <=Li <= +oo. <br /> Нужно для этих значений найти такие p1,...pn, что pi из [0, 1], а сумма pi = 1, то есть p1..pn - распределение вероятностей.<br /> Для этого возьмём экспоненту от L1..Ln; Получим числа от [0;+oo] и нормируем их:<br /> pi = exp(Li)/Sum(exp(Li))<br /> Выполняется следующее: Li <= Lj => Pi <= Pj<br /> <br /> Есть модель a, возвращающая Li. Необходимо сделать так, чтобы a возвращала pi, при этом оставаясь дифференциируемой.<br /> <tex>y = </tex>'''soft-arg-max'''<tex>\left ( x \right )</tex>, где <tex>y_{i} = \frac{\exp\left ( x_{i} \right )}{\sum_{j}\exp\left ( x_{i} \right )}</tex><br /> <tex>\frac{\partial y_{i}}{\partial x_{j}} = \begin{cases}<br /> &y_{i}\left ( 1 - y_{j} \right ),~i = j \\ <br /> &-y_{i}\cdot y_{j},~~~~~~i \neq j <br /> \end{cases} = y_{i}\left ( I\left [ i = j \right ] - y_{j}\right )</tex><br /> <br /> ===Свойства soft-arg-max===<br /> *Вычисляет по вектору чисел вектор с распределением вероятностей.<br /> *Можно интерпретировать как вероятность нахождения максимума в <tex>i</tex>-й координате.<br /> *'''soft-arg-max'''<tex>\left ( x - c,y-c,z-c\right )=</tex>'''soft-arg-max'''<tex>\left ( x,y,z\right )</tex><br /> *Предыдущее свойство используют для устойчивости вычислений. При <tex>c=max\left ( x,y,z \right )</tex><br /> <br /> ==Soft-Max==</div>

5.44.169.198 http://neerc.ifmo.ru/wiki/index.php?title=Soft-Max_%D0%B8_Soft-Arg-Max&diff=82563 Soft-Max и Soft-Arg-Max 2022-07-01T13:14:36Z

<p>5.44.169.198: /* Soft-Arg-Max */</p> <hr /> <div>Soft-Max и Soft-Arg-Max. <br /> ==Soft-Arg-Max==<br /> Пусть есть задача мягкой классификации: Алгоритм выдает значения L1, L2, ... Ln, где n - число классов. Li - уверенность алгоритма в том, что объект принадлежит классу i; -oo <=Li <= +oo. <br /> Нужно для этих значений найти такие p1,...pn, что pi из [0, 1], а сумма pi = 1, то есть p1..pn - распределение вероятностей.<br /> Для этого возьмём экспоненту от L1..Ln; Получим числа от [0;+oo] и нормируем их:<br /> pi = exp(Li)/Sum(exp(Li))<br /> Выполняется следующее: Li <= Lj => Pi <= Pj<br /> <br /> Есть модель a, возвращающая Li. Необходимо сделать так, чтобы a возвращала pi, при этом оставаясь дифференциируемой.<br /> <tex>y = </tex>soft-arg-max<tex>\left ( x \right )</tex>, где <tex>y_{i} = \frac{\exp\left ( x_{i} \right )}{\sum_{j}\exp\left ( x_{i} \right )}</tex><br /> <tex>\frac{\partial y_{i}}{\partial x_{j}} = \begin{cases}<br /> &y_{i}\left ( 1 - y_{j} \right ),~i = j \\ <br /> &-y_{i}\cdot y_{j},~~~~~~i \neq j <br /> \end{cases} = y_{i}\left ( I\left [ i = j \right ] - y_{j}\right )</tex><br /> <br /> ===Свойства soft-arg-max===<br /> *Вычисляет по вектору чисел вектор с распределением вероятностей.<br /> *Можно интерпретировать как вероятность нахождения максимума в <tex>i</tex>-й координате.<br /> *soft-arg-max<tex>\left ( x - c,y-c,z-c\right )=</tex>soft-arg-max<tex>\left ( x,y,z)\right )</tex><br /> *Предыдущее свойство используют для устойчивости вычислений. При <tex>c=max\left ( x,y,z \right )</tex><br /> <br /> ==Soft-Max==</div>

5.44.169.198 http://neerc.ifmo.ru/wiki/index.php?title=Soft-Max_%D0%B8_Soft-Arg-Max&diff=82562 Soft-Max и Soft-Arg-Max 2022-07-01T13:13:23Z

<p>5.44.169.198: /* Soft-Arg-Max */</p> <hr /> <div>Soft-Max и Soft-Arg-Max. <br /> ==Soft-Arg-Max==<br /> Пусть есть задача мягкой классификации: Алгоритм выдает значения L1, L2, ... Ln, где n - число классов. Li - уверенность алгоритма в том, что объект принадлежит классу i; -oo <=Li <= +oo. <br /> Нужно для этих значений найти такие p1,...pn, что pi из [0, 1], а сумма pi = 1, то есть p1..pn - распределение вероятностей.<br /> Для этого возьмём экспоненту от L1..Ln; Получим числа от [0;+oo] и нормируем их:<br /> pi = exp(Li)/Sum(exp(Li))<br /> Выполняется следующее: Li <= Lj => Pi <= Pj<br /> <br /> Есть модель a, возвращающая Li. Необходимо сделать так, чтобы a возвращала pi, при этом оставаясь дифференциируемой.<br /> <tex>y = soft{-}arg{-}max\left ( x \right )</tex>, где <tex>y_{i} = \frac{\exp\left ( x_{i} \right )}{\sum_{j}\exp\left ( x_{i} \right )}</tex><br /> <tex>\frac{\partial y_{i}}{\partial x_{j}} = \begin{cases}<br /> &y_{i}\left ( 1 - y_{j} \right ),~i = j \\ <br /> &-y_{i}\cdot y_{j},~~~~~~i \neq j <br /> \end{cases} = y_{i}\left ( I\left [ i = j \right ] - y_{j}\right )</tex><br /> <br /> ===Свойства soft-arg-max===<br /> *Вычисляет по вектору чисел вектор с распределением вероятностей.<br /> *Можно интерпретировать как вероятность нахождения максимума в <tex>i</tex>-й координате.<br /> *<tex>soft{-}arg{-}max\left ( x - c,y-c,z-c\right )=soft{-}arg{-}max\left ( x,y,z)\right )</tex><br /> *Предыдущее свойство используют для устойчивости вычислений. При <tex>c=max\left ( x,y,z \right )</tex><br /> <br /> ==Soft-Max==</div>

5.44.169.198 http://neerc.ifmo.ru/wiki/index.php?title=Soft-Max_%D0%B8_Soft-Arg-Max&diff=82561 Soft-Max и Soft-Arg-Max 2022-07-01T13:12:26Z

<p>5.44.169.198: /* Soft-Arg-Max */</p> <hr /> <div>Soft-Max и Soft-Arg-Max. <br /> ==Soft-Arg-Max==<br /> Пусть есть задача мягкой классификации: Алгоритм выдает значения L1, L2, ... Ln, где n - число классов. Li - уверенность алгоритма в том, что объект принадлежит классу i; -oo <=Li <= +oo. <br /> Нужно для этих значений найти такие p1,...pn, что pi из [0, 1], а сумма pi = 1, то есть p1..pn - распределение вероятностей.<br /> Для этого возьмём экспоненту от L1..Ln; Получим числа от [0;+oo] и нормируем их:<br /> pi = exp(Li)/Sum(exp(Li))<br /> Выполняется следующее: Li <= Lj => Pi <= Pj<br /> <br /> Есть модель a, возвращающая Li. Необходимо сделать так, чтобы a возвращала pi, при этом оставаясь дифференциируемой.<br /> <tex>y = soft{-}arg{-}max\left ( x \right )</tex>, где <tex>y_{i} = \frac{\exp\left ( x_{i} \right )}{\sum_{j}\exp\left ( x_{i} \right )}</tex><br /> <tex>\frac{\partial y_{i}}{\partial x_{j}} = \begin{cases}<br /> &y_{i}\left ( 1 - y_{j} \right ),~i = j \\ <br /> &-y_{i}\cdot y_{j},~~~~~~i \neq j <br /> \end{cases} = y_{i}\left ( I\left [ i = j \right ] - y_{j}\right )</tex><br /> <br /> ===Свойства soft-arg-max===<br /> *soft-arg-max вычисляет по вектору чисел вектор с распределением вероятностей.<br /> *Можно интерпретировать как вероятность нахождения максимума в {{i}}-й координате.<br /> *<tex>soft{-}arg{-}max\left ( x - c,y-c,z-c\right )=soft{-}arg{-}max\left ( x,y,z)\right )</tex><br /> <br /> ==Soft-Max==</div>

5.44.169.198 http://neerc.ifmo.ru/wiki/index.php?title=Soft-Max_%D0%B8_Soft-Arg-Max&diff=82560 Soft-Max и Soft-Arg-Max 2022-07-01T13:11:47Z

<p>5.44.169.198: /* Soft-Arg-Max */</p> <hr /> <div>Soft-Max и Soft-Arg-Max. <br /> ==Soft-Arg-Max==<br /> Пусть есть задача мягкой классификации: Алгоритм выдает значения L1, L2, ... Ln, где n - число классов. Li - уверенность алгоритма в том, что объект принадлежит классу i; -oo <=Li <= +oo. <br /> Нужно для этих значений найти такие p1,...pn, что pi из [0, 1], а сумма pi = 1, то есть p1..pn - распределение вероятностей.<br /> Для этого возьмём экспоненту от L1..Ln; Получим числа от [0;+oo] и нормируем их:<br /> pi = exp(Li)/Sum(exp(Li))<br /> Выполняется следующее: Li <= Lj => Pi <= Pj<br /> <br /> Есть модель a, возвращающая Li. Необходимо сделать так, чтобы a возвращала pi, при этом оставаясь дифференциируемой.<br /> <tex>y = soft{-}arg{-}max\left ( x \right )</tex>, где <tex>y_{i} = \frac{\exp\left ( x_{i} \right )}{\sum_{j}\exp\left ( x_{i} \right )}</tex><br /> <tex>\frac{\partial y_{i}}{\partial x_{j}} = \begin{cases}<br /> &y_{i}\left ( 1 - y_{j} \right ),~i = j \\ <br /> &-y_{i}\cdot y_{j},~~~~~~i \neq j <br /> \end{cases} = y_{i}\left ( I\left [ i = j \right ] - y_{j}\right )</tex><br /> <br /> ===Свойства soft-arg-max===<br /> *soft-arg-max вычисляет по вектору чисел вектор с распределением вероятностей.<br /> *Можно интерпретировать как вероятность нахождения максимума в {{{i}}}-й координате.<br /> *<tex>soft{-}arg{-}max\left ( x - c,y-c,z-c\right )=soft{-}arg{-}max\left ( x,y,z)\right )</tex><br /> <br /> ==Soft-Max==</div>

5.44.169.198 http://neerc.ifmo.ru/wiki/index.php?title=Soft-Max_%D0%B8_Soft-Arg-Max&diff=82559 Soft-Max и Soft-Arg-Max 2022-07-01T13:10:41Z

<p>5.44.169.198: /* Soft-Arg-Max */</p> <hr /> <div>Soft-Max и Soft-Arg-Max. <br /> ==Soft-Arg-Max==<br /> Пусть есть задача мягкой классификации: Алгоритм выдает значения L1, L2, ... Ln, где n - число классов. Li - уверенность алгоритма в том, что объект принадлежит классу i; -oo <=Li <= +oo. <br /> Нужно для этих значений найти такие p1,...pn, что pi из [0, 1], а сумма pi = 1, то есть p1..pn - распределение вероятностей.<br /> Для этого возьмём экспоненту от L1..Ln; Получим числа от [0;+oo] и нормируем их:<br /> pi = exp(Li)/Sum(exp(Li))<br /> Выполняется следующее: Li <= Lj => Pi <= Pj<br /> <br /> Есть модель a, возвращающая Li. Необходимо сделать так, чтобы a возвращала pi, при этом оставаясь дифференциируемой.<br /> <tex>y =</tex> '''soft-arg-max'''<tex>\left ( x \right )</tex>, где <tex>y_{i} = \frac{\exp\left ( x_{i} \right )}{\sum_{j}\exp\left ( x_{i} \right )}</tex><br /> <tex>\frac{\partial y_{i}}{\partial x_{j}} = \begin{cases}<br /> &y_{i}\left ( 1 - y_{j} \right ),~i = j \\ <br /> &-y_{i}\cdot y_{j},~~~~~~i \neq j <br /> \end{cases} = y_{i}\left ( I\left [ i = j \right ] - y_{j}\right )</tex><br /> <br /> ===Свойства soft-arg-max===<br /> *soft-arg-max вычисляет по вектору чисел вектор с распределением вероятностей.<br /> *Можно интерпретировать как вероятность нахождения максимума в {{{i}}}-й координате.<br /> *<tex>soft{-}arg{-}max\left ( x - c,y-c,z-c\right )=soft \textendash arg \textendash max\left ( x,y,z)\right )</tex><br /> <br /> ==Soft-Max==</div>

5.44.169.198 http://neerc.ifmo.ru/wiki/index.php?title=Soft-Max_%D0%B8_Soft-Arg-Max&diff=82558 Soft-Max и Soft-Arg-Max 2022-07-01T13:09:59Z

<p>5.44.169.198: /* Soft-Arg-Max */</p> <hr /> <div>Soft-Max и Soft-Arg-Max. <br /> ==Soft-Arg-Max==<br /> Пусть есть задача мягкой классификации: Алгоритм выдает значения L1, L2, ... Ln, где n - число классов. Li - уверенность алгоритма в том, что объект принадлежит классу i; -oo <=Li <= +oo. <br /> Нужно для этих значений найти такие p1,...pn, что pi из [0, 1], а сумма pi = 1, то есть p1..pn - распределение вероятностей.<br /> Для этого возьмём экспоненту от L1..Ln; Получим числа от [0;+oo] и нормируем их:<br /> pi = exp(Li)/Sum(exp(Li))<br /> Выполняется следующее: Li <= Lj => Pi <= Pj<br /> <br /> Есть модель a, возвращающая Li. Необходимо сделать так, чтобы a возвращала pi, при этом оставаясь дифференциируемой.<br /> <tex>y =</tex> '''soft-arg-max'''<tex>\left ( x \right )</tex>, где <tex>y_{i} = \frac{\exp\left ( x_{i} \right )}{\sum_{j}\exp\left ( x_{i} \right )}</tex><br /> <tex>\frac{\partial y_{i}}{\partial x_{j}} = \begin{cases}<br /> &y_{i}\left ( 1 - y_{j} \right ),~i = j \\ <br /> &-y_{i}\cdot y_{j},~~~~~~i \neq j <br /> \end{cases} = y_{i}\left ( I\left [ i = j \right ] - y_{j}\right )</tex><br /> <br /> ===Свойства soft-arg-max===<br /> *soft-arg-max вычисляет по вектору чисел вектор с распределением вероятностей.<br /> *Можно интерпретировать как вероятность нахождения максимума в {{{i}}}-й координате.<br /> *<tex>soft \textendash arg \textendash max\left ( x - c,y-c,z-c\right )=soft \textendash arg \textendash max\left ( x,y,z)\right )</tex><br /> <br /> ==Soft-Max==</div>

5.44.169.198 http://neerc.ifmo.ru/wiki/index.php?title=Soft-Max_%D0%B8_Soft-Arg-Max&diff=82557 Soft-Max и Soft-Arg-Max 2022-07-01T13:08:37Z

<p>5.44.169.198: /* Свойства soft-arg-max */</p> <hr /> <div>Soft-Max и Soft-Arg-Max. <br /> ==Soft-Arg-Max==<br /> Пусть есть задача мягкой классификации: Алгоритм выдает значения L1, L2, ... Ln, где n - число классов. Li - уверенность алгоритма в том, что объект принадлежит классу i; -oo <=Li <= +oo. <br /> Нужно для этих значений найти такие p1,...pn, что pi из [0, 1], а сумма pi = 1, то есть p1..pn - распределение вероятностей.<br /> Для этого возьмём экспоненту от L1..Ln; Получим числа от [0;+oo] и нормируем их:<br /> pi = exp(Li)/Sum(exp(Li))<br /> Выполняется следующее: Li <= Lj => Pi <= Pj<br /> <br /> Есть модель a, возвращающая Li. Необходимо сделать так, чтобы a возвращала pi, при этом оставаясь дифференциируемой.<br /> <tex>y =</tex> '''soft-arg-max'''<tex>\left ( x \right )</tex>, где <tex>y_{i} = \frac{\exp\left ( x_{i} \right )}{\sum_{j}\exp\left ( x_{i} \right )}</tex><br /> <tex>\frac{\partial y_{i}}{\partial x_{j}} = \begin{cases}<br /> &y_{i}\left ( 1 - y_{j} \right ),~i = j \\ <br /> &-y_{i}\cdot y_{j},~~~~~~i \neq j <br /> \end{cases} = y_{i}\left ( I\left [ i = j \right ] - y_{j}\right )</tex><br /> <br /> ===Свойства soft-arg-max===<br /> *soft-arg-max вычисляет по вектору чисел вектор с распределением вероятностей.<br /> *Можно интерпретировать как вероятность нахождения максимума в {{{i}}}-й координате.<br /> *<tex>soft-arg-max\left ( x - c,y-c,z-c\right )=soft-arg-max\left ( x,y,z)\right )</tex><br /> <br /> ==Soft-Max==</div>

5.44.169.198 http://neerc.ifmo.ru/wiki/index.php?title=Soft-Max_%D0%B8_Soft-Arg-Max&diff=82556 Soft-Max и Soft-Arg-Max 2022-07-01T13:07:48Z

<p>5.44.169.198: /* Soft-Arg-Max */</p> <hr /> <div>Soft-Max и Soft-Arg-Max. <br /> ==Soft-Arg-Max==<br /> Пусть есть задача мягкой классификации: Алгоритм выдает значения L1, L2, ... Ln, где n - число классов. Li - уверенность алгоритма в том, что объект принадлежит классу i; -oo <=Li <= +oo. <br /> Нужно для этих значений найти такие p1,...pn, что pi из [0, 1], а сумма pi = 1, то есть p1..pn - распределение вероятностей.<br /> Для этого возьмём экспоненту от L1..Ln; Получим числа от [0;+oo] и нормируем их:<br /> pi = exp(Li)/Sum(exp(Li))<br /> Выполняется следующее: Li <= Lj => Pi <= Pj<br /> <br /> Есть модель a, возвращающая Li. Необходимо сделать так, чтобы a возвращала pi, при этом оставаясь дифференциируемой.<br /> <tex>y =</tex> '''soft-arg-max'''<tex>\left ( x \right )</tex>, где <tex>y_{i} = \frac{\exp\left ( x_{i} \right )}{\sum_{j}\exp\left ( x_{i} \right )}</tex><br /> <tex>\frac{\partial y_{i}}{\partial x_{j}} = \begin{cases}<br /> &y_{i}\left ( 1 - y_{j} \right ),~i = j \\ <br /> &-y_{i}\cdot y_{j},~~~~~~i \neq j <br /> \end{cases} = y_{i}\left ( I\left [ i = j \right ] - y_{j}\right )</tex><br /> <br /> ===Свойства soft-arg-max===<br /> *soft-arg-max вычисляет по вектору чисел вектор с распределением вероятностей.<br /> *Можно интерпретировать как вероятность нахождения максимума в {{{i}}}-й координате.<br /> *soft-arg-max<tex>\left ( x - c,y-c,z-c\right )=</tex>soft-arg-max<tex>\left ( x,y,z)\right )</tex><br /> <br /> ==Soft-Max==</div>

5.44.169.198 http://neerc.ifmo.ru/wiki/index.php?title=Soft-Max_%D0%B8_Soft-Arg-Max&diff=82555 Soft-Max и Soft-Arg-Max 2022-07-01T13:03:50Z

<p>5.44.169.198: /* Soft-Arg-Max */</p> <hr /> <div>Soft-Max и Soft-Arg-Max. <br /> ==Soft-Arg-Max==<br /> Пусть есть задача мягкой классификации: Алгоритм выдает значения L1, L2, ... Ln, где n - число классов. Li - уверенность алгоритма в том, что объект принадлежит классу i; -oo <=Li <= +oo. <br /> Нужно для этих значений найти такие p1,...pn, что pi из [0, 1], а сумма pi = 1, то есть p1..pn - распределение вероятностей.<br /> Для этого возьмём экспоненту от L1..Ln; Получим числа от [0;+oo] и нормируем их:<br /> pi = exp(Li)/Sum(exp(Li))<br /> Выполняется следующее: Li <= Lj => Pi <= Pj<br /> <br /> Есть модель a, возвращающая Li. Необходимо сделать так, чтобы a возвращала pi, при этом оставаясь дифференциируемой.<br /> <tex>y =</tex> '''soft-arg-max'''<tex>\left ( x \right )</tex>, где <tex>y_{i} = \frac{\exp\left ( x_{i} \right )}{\sum_{j}\exp\left ( x_{i} \right )}</tex><br /> <tex>\frac{\partial y_{i}}{\partial x_{j}} = \begin{cases}<br /> &y_{i}\left ( 1 - y_{j} \right ),~i = j \\ <br /> &-y_{i}\cdot y_{j},~~~~~~i \neq j <br /> \end{cases} = y_{i}\left ( I\left [ i = j \right ] - y_{j}\right )</tex><br /> <br /> ==Soft-Max==</div>

5.44.169.198 http://neerc.ifmo.ru/wiki/index.php?title=Soft-Max_%D0%B8_Soft-Arg-Max&diff=82554 Soft-Max и Soft-Arg-Max 2022-07-01T13:03:33Z

<p>5.44.169.198: /* Soft-Arg-Max */</p> <hr /> <div>Soft-Max и Soft-Arg-Max. <br /> ==Soft-Arg-Max==<br /> Пусть есть задача мягкой классификации: Алгоритм выдает значения L1, L2, ... Ln, где n - число классов. Li - уверенность алгоритма в том, что объект принадлежит классу i; -oo <=Li <= +oo. <br /> Нужно для этих значений найти такие p1,...pn, что pi из [0, 1], а сумма pi = 1, то есть p1..pn - распределение вероятностей.<br /> Для этого возьмём экспоненту от L1..Ln; Получим числа от [0;+oo] и нормируем их:<br /> pi = exp(Li)/Sum(exp(Li))<br /> Выполняется следующее: Li <= Lj => Pi <= Pj<br /> <br /> Есть модель a, возвращающая Li. Необходимо сделать так, чтобы a возвращала pi, при этом оставаясь дифференциируемой.<br /> <tex>y =</tex> '''soft-arg-max'''<tex>\left ( x \right )</tex>, где <tex>y_{i} = \frac{\exp\left ( x_{i} \right )}{\sum_{j}\exp\left ( x_{i} \right )}</tex><br /> <tex>\frac{\partial y_{i}}{\partial x_{j}} = \begin{cases}<br /> &y_{i}\left ( 1 - y_{j} \right ), i = j \\ <br /> &-y_{i}\cdot y_{j},~~~~ i \neq j <br /> \end{cases} = y_{i}\left ( I\left [ i = j \right ] - y_{j}\right )</tex><br /> <br /> ==Soft-Max==</div>

5.44.169.198 http://neerc.ifmo.ru/wiki/index.php?title=Soft-Max_%D0%B8_Soft-Arg-Max&diff=82553 Soft-Max и Soft-Arg-Max 2022-07-01T13:01:42Z

<p>5.44.169.198: </p> <hr /> <div>Soft-Max и Soft-Arg-Max. <br /> ==Soft-Arg-Max==<br /> Пусть есть задача мягкой классификации: Алгоритм выдает значения L1, L2, ... Ln, где n - число классов. Li - уверенность алгоритма в том, что объект принадлежит классу i; -oo <=Li <= +oo. <br /> Нужно для этих значений найти такие p1,...pn, что pi из [0, 1], а сумма pi = 1, то есть p1..pn - распределение вероятностей.<br /> Для этого возьмём экспоненту от L1..Ln; Получим числа от [0;+oo] и нормируем их:<br /> pi = exp(Li)/Sum(exp(Li))<br /> Выполняется следующее: Li <= Lj => Pi <= Pj<br /> <br /> Есть модель a, возвращающая Li. Необходимо сделать так, чтобы a возвращала pi, при этом оставаясь дифференциируемой.<br /> <tex>y =</tex> '''soft-arg-max'''<tex>\left ( x \right )</tex>, где <tex>y_{i} = \frac{\exp\left ( x_{i} \right )}{\sum_{j}\exp\left ( x_{i} \right )}</tex><br /> <tex>\frac{\partial y_{i}}{\partial x_{j}} = \begin{cases}<br /> & y_{i}\left ( 1 - y_{j} \right ), i = j \\ <br /> & -y_{i}\cdot y_{j}, i \neq j <br /> \end{cases} = y_{i}\left ( I\left [ i = j \right ] - y_{j}\right )</tex><br /> ==Soft-Max==</div>

5.44.169.198 http://neerc.ifmo.ru/wiki/index.php?title=Soft-Max_%D0%B8_Soft-Arg-Max&diff=82552 Soft-Max и Soft-Arg-Max 2022-07-01T12:57:52Z

<p>5.44.169.198: </p> <hr /> <div>Soft-Max и Soft-Arg-Max. <br /> ==Soft-Arg-Max==<br /> Пусть есть задача мягкой классификации: Алгоритм выдает значения L1, L2, ... Ln, где n - число классов. Li - уверенность алгоритма в том, что объект принадлежит классу i; -oo <=Li <= +oo. <br /> Нужно для этих значений найти такие p1,...pn, что pi из [0, 1], а сумма pi = 1, то есть p1..pn - распределение вероятностей.<br /> Для этого возьмём экспоненту от L1..Ln; Получим числа от [0;+oo] и нормируем их:<br /> pi = exp(Li)/Sum(exp(Li))<br /> Выполняется следующее: Li <= Lj => Pi <= Pj<br /> <br /> Есть модель a, возвращающая Li. Необходимо сделать так, чтобы a возвращала pi, при этом оставаясь дифференциируемой.<br /> <tex>y =</tex> '''soft-arg-max'''<tex>\left ( x \right )</tex>, где <tex>y_{i} = \frac{\exp\left ( x_{i} \right )}{\sum_{j}\exp\left ( x_{i} \right )}</tex><br /> <br /> ==Soft-Max==</div>

5.44.169.198 http://neerc.ifmo.ru/wiki/index.php?title=Soft-Max_%D0%B8_Soft-Arg-Max&diff=82551 Soft-Max и Soft-Arg-Max 2022-07-01T12:57:24Z

<p>5.44.169.198: </p> <hr /> <div>Soft-Max и Soft-Arg-Max. <br /> ==Soft-Arg-Max==<br /> Пусть есть задача мягкой классификации: Алгоритм выдает значения L1, L2, ... Ln, где n - число классов. Li - уверенность алгоритма в том, что объект принадлежит классу i; -oo <=Li <= +oo. <br /> Нужно для этих значений найти такие p1,...pn, что pi из [0, 1], а сумма pi = 1, то есть p1..pn - распределение вероятностей.<br /> Для этого возьмём экспоненту от L1..Ln; Получим числа от [0;+oo] и нормируем их:<br /> pi = exp(Li)/Sum(exp(Li))<br /> Выполняется следующее: Li <= Lj => Pi <= Pj<br /> <br /> Есть модель a, возвращающая Li. Необходимо сделать так, чтобы a возвращала pi, при этом оставаясь дифференциируемой.<br /> <tex>y =</tex> '''soft-arg-max'''<tex>\left ( x \right )</tex>, где <tex>y_{i} = \frac{\exp\left ( x_{i} \right )}{\sum_{j}\exp\left ( x_{i} \right )}</tex></div>

5.44.169.198 http://neerc.ifmo.ru/wiki/index.php?title=Soft-Max_%D0%B8_Soft-Arg-Max&diff=82550 Soft-Max и Soft-Arg-Max 2022-07-01T12:56:31Z

<p>5.44.169.198: </p> <hr /> <div>Soft-Max и Soft-Arg-Max. <br /> ===Soft-Arg-Max===<br /> Пусть есть задача мягкой классификации: Алгоритм выдает значения L1, L2, ... Ln, где n - число классов. Li - уверенность алгоритма в том, что объект принадлежит классу i; -oo <=Li <= +oo. <br /> Нужно для этих значений найти такие p1,...pn, что pi из [0, 1], а сумма pi = 1, то есть p1..pn - распределение вероятностей.<br /> Для этого возьмём экспоненту от L1..Ln; Получим числа от [0;+oo] и нормируем их:<br /> pi = exp(Li)/Sum(exp(Li))<br /> Выполняется следующее: Li <= Lj => Pi <= Pj<br /> <br /> Есть модель a, возвращающая Li. Необходимо сделать так, чтобы a возвращала pi, при этом оставаясь дифференциируемой.<br /> <tex>y =</tex> '''soft-arg-max'''<tex>\left ( x \right )</tex>, где <tex>y_{i} = \frac{\exp\left ( x_{i} \right )}{\sum_{j}\exp\left ( x_{i} \right )}</tex></div>

5.44.169.198 http://neerc.ifmo.ru/wiki/index.php?title=Soft-Max_%D0%B8_Soft-Arg-Max&diff=82549 Soft-Max и Soft-Arg-Max 2022-07-01T12:55:35Z

<p>5.44.169.198: </p> <hr /> <div>Soft-Max и Soft-Arg-Max. Пусть есть задача мягкой классификации: Алгоритм выдает значения L1, L2, ... Ln, где n - число классов. Li - уверенность алгоритма в том, что объект принадлежит классу i; -oo <=Li <= +oo. <br /> Нужно для этих значений найти такие p1,...pn, что pi из [0, 1], а сумма pi = 1, то есть p1..pn - распределение вероятностей.<br /> Для этого возьмём экспоненту от L1..Ln; Получим числа от [0;+oo] и нормируем их:<br /> pi = exp(Li)/Sum(exp(Li))<br /> Выполняется следующее: Li <= Lj => Pi <= Pj<br /> <br /> Есть модель a, возвращающая Li. Необходимо сделать так, чтобы a возвращала pi, при этом оставаясь дифференциируемой.<br /> <tex>y =</tex> '''soft-arg-max'''<tex>\left ( x \right )</tex>, где <tex>y_{i} = \frac{\exp\left ( x_{i} \right )}{\sum_{j}\exp\left ( x_{i} \right )}</tex></div>

5.44.169.198