Batch Normalization и Layer Normalization
🔒 Sign in to use this
Нормализация активаций: почему сеть нестабильна без неё
Даже с правильной инициализацией Xavier/He дисперсия активаций начинает дрейфовать в процессе обучения. Веса обновляются, распределения смещаются — это называется Internal Covariate Shift. Каждый слой получает всё более «плохой» вход и вынужден постоянно адаптироваться. Нормализационные слои решают это прямо: принудительно приводят активации к нужному распределению после каждого слоя.
Content is available with subscription.
Get full access to all courses on the platform for one year with a single payment.
▼
▼
Unlike other platforms that charge per course, here you get everything for one price, and after one year of use there will be no automatic charge for the following year.
🔒 Sign in to use this