DPO вместо RLHF: Direct Preference Optimization
🔒 Sign in to use this
DPO: замена модели вознаграждения прямой оптимизацией предпочтений
RLHF (описанный в главе 2) требует трех отдельных этапов обучения: SFT → Модель вознаграждения → PPO. На каждом этапе требуется собственная инфраструктура, собственная настройка гиперпараметров и вводятся новые режимы отказа. В 2023 г. Рафаилов и др. опубликованный DPO — алгоритм, который достигает той же цели согласования за один шаг тонкой настройки, без модели вознаграждения и со стандартным контролируемым циклом обучения. Сейчас это доминирующий метод выравнивания в экосистеме с открытым исходным кодом.
Content is available with subscription.
Get full access to all courses on the platform for one year with a single payment.
▼
▼
Unlike other platforms that charge per course, here you get everything for one price, and after one year of use there will be no automatic charge for the following year.
🔒 Sign in to use this