DPO вместо RLHF: Direct Preference Optimization

🔒 Sign in to use this

DPO: замена модели вознаграждения прямой оптимизацией предпочтений

RLHF (описанный в главе 2) требует трех отдельных этапов обучения: SFT → Модель вознаграждения → PPO. На каждом этапе требуется собственная инфраструктура, собственная настройка гиперпараметров и вводятся новые режимы отказа. В 2023 г. Рафаилов и др. опубликованный DPO — алгоритм, который достигает той же цели согласования за один шаг тонкой настройки, без модели вознаграждения и со стандартным контролируемым циклом обучения. Сейчас это доминирующий метод выравнивания в экосистеме с открытым исходным кодом.

Content is available with subscription.

Get full access to all courses on the platform for one year with a single payment.

Unlike other platforms that charge per course, here you get everything for one price, and after one year of use there will be no automatic charge for the following year.

🔒 Sign in to use this