186
правок
Изменения
→Сравнение способов настройки параметров
[[Файл:Gradient_optimization.gif|Сравнение разных методов на седловой функции]]
Рассмотрим график седловой функции с "седлом" в точке <tex>(0, 0, 0)</tex>. Предположим, что в качестве начальной точки выбрана точка <tex>(0, y, z)</tex>, где <tex>y > 0, z > 0</tex> (см. рисунок. Координата <tex>x</tex> на нем варьируется в пределах от <tex>-1.5</tex> до <tex>1</tex>, координата <tex>y \in [-0.5; 1]</tex>, а координата <tex>z \in [-4; 4]</tex>). Рассмотрим работу описанных выше методов, примененных к данной оптимизируемой функции с данной начальной точкой:
* SGD (Стандартный градиентный спуск без оптимизаций) никак не учитывает тот факт, что по координате <tex>x</tex> производная в данной точке пренебрежимо мала по сравнению с производной по <tex>y</tex>. Поэтому через малое число итераций алгоритм сойдется в окрестности седловой точки <tex>(0, 0, 0)</tex> и остановится, потому что производная в данной точке нулевая.