Attention и архитектура Transformer

🔒 Sign in to use this

Attention: каждый токен смотрит на весь контекст сразу

До трансформера RNN читали текст последовательно: слово за словом. Слово в начале длинного предложения влияло на конец с трудом — сигнал затухал. Механизм внимания (attention) решил это радикально: каждый токен одновременно «смотрит» на все остальные токены и решает насколько каждый из них важен. Параллельно, не последовательно. Это и позволило трансформерам масштабироваться до миллиардов параметров.

Content is available with subscription.

Get full access to all courses on the platform for one year with a single payment.

Unlike other platforms that charge per course, here you get everything for one price, and after one year of use there will be no automatic charge for the following year.

🔒 Sign in to use this