Attention и архитектура Transformer
🔒 Sign in to use this
Attention: каждый токен смотрит на весь контекст сразу
До трансформера RNN читали текст последовательно: слово за словом. Слово в начале длинного предложения влияло на конец с трудом — сигнал затухал. Механизм внимания (attention) решил это радикально: каждый токен одновременно «смотрит» на все остальные токены и решает насколько каждый из них важен. Параллельно, не последовательно. Это и позволило трансформерам масштабироваться до миллиардов параметров.
Content is available with subscription.
Get full access to all courses on the platform for one year with a single payment.
▼
▼
Unlike other platforms that charge per course, here you get everything for one price, and after one year of use there will be no automatic charge for the following year.
🔒 Sign in to use this