Энкодеры и декодеры: BERT и семейство GPT

🔒 Sign in to use this

BERT и GPT: один Transformer — разные задачи

После self-attention остаётся важный вопрос: какие позиции может видеть каждый токен? В BERT (encoder) маска внимания почти полная: при обучении MLM модель видит контекст слева и справа от [MASK] — это двунаправленный контекст. В GPT (decoder) при генерации токен t не имеет права «подглядывать» в будущее: действует каузальная (авторегрессивная) маска — нижний треугольник. Ниже — интерактив: наведите на токен BERT и посмотрите стрелки; на стороне GPT нажимайте «Следующий токен» и переключитесь на «Маска внимания».

Content is available with subscription.

Get full access to all courses on the platform for one year with a single payment.

Unlike other platforms that charge per course, here you get everything for one price, and after one year of use there will be no automatic charge for the following year.

🔒 Sign in to use this