Оптимизаторы: SGD, momentum, RMSProp и Adam

🔒 Sign in to use this

Оптимизаторы: как нейросеть идёт к минимуму

Все оптимизаторы решают одну задачу: обновить веса чтобы loss уменьшился. Разница в том как именно они используют градиент. SGD — прямолинейно: шаг в сторону антиградиента. Momentum — с инерцией: помнит предыдущие шаги. Adam — умно: адаптирует размер шага для каждого параметра отдельно на основе истории градиентов. Именно эта адаптивность делает Adam стандартом для трансформеров.

Content is available with subscription.

Get full access to all courses on the platform for one year with a single payment.

Unlike other platforms that charge per course, here you get everything for one price, and after one year of use there will be no automatic charge for the following year.

🔒 Sign in to use this