Энкодеры и декодеры: BERT и семейство GPT
🔒 Sign in to use this
BERT и GPT: один Transformer — разные задачи
После self-attention остаётся важный вопрос: какие позиции может видеть каждый токен? В BERT (encoder) маска внимания почти полная: при обучении MLM модель видит контекст слева и справа от [MASK] — это двунаправленный контекст. В GPT (decoder) при генерации токен t не имеет права «подглядывать» в будущее: действует каузальная (авторегрессивная) маска — нижний треугольник. Ниже — интерактив: наведите на токен BERT и посмотрите стрелки; на стороне GPT нажимайте «Следующий токен» и переключитесь на «Маска внимания».
Content is available with subscription.
Get full access to all courses on the platform for one year with a single payment.
▼
▼
Unlike other platforms that charge per course, here you get everything for one price, and after one year of use there will be no automatic charge for the following year.
🔒 Sign in to use this