RLHF и выравнивание: SFT → Reward Model → PPO/DPO
🔒 Sign in to use this
Согласование: SFT, модели вознаграждения, PPO и DPO.
Предварительно обученная языковая модель чрезвычайно эффективна, но совершенно неуправляема. Задайте ему вопрос, и он может породить еще больше вопросов, написать короткий рассказ или создать токсичный контент — и все это будет равноценным продолжением текста. Согласование – это процесс преобразования этих необработанных возможностей в полезную, честную и безвредную модель. В этом уроке рассматривается трехэтапный конвейер, который превращает базовую модель в ChatGPT или Claude.
Content is available with subscription.
Get full access to all courses on the platform for one year with a single payment.
▼
▼
Unlike other platforms that charge per course, here you get everything for one price, and after one year of use there will be no automatic charge for the following year.
🔒 Sign in to use this