RLHF и выравнивание: SFT → Reward Model → PPO/DPO

🔒 Sign in to use this

Согласование: SFT, модели вознаграждения, PPO и DPO.

Предварительно обученная языковая модель чрезвычайно эффективна, но совершенно неуправляема. Задайте ему вопрос, и он может породить еще больше вопросов, написать короткий рассказ или создать токсичный контент — и все это будет равноценным продолжением текста. Согласование – это процесс преобразования этих необработанных возможностей в полезную, честную и безвредную модель. В этом уроке рассматривается трехэтапный конвейер, который превращает базовую модель в ChatGPT или Claude.

Content is available with subscription.

Get full access to all courses on the platform for one year with a single payment.

Unlike other platforms that charge per course, here you get everything for one price, and after one year of use there will be no automatic charge for the following year.

🔒 Sign in to use this