Эффективное внимание: Flash Attention, RoPE, длинный контекст

🔒 Sign in to use this

Эффективное внимание: мгновенное внимание, RoPE и длинный контекст

Механизм самообслуживания преобразователя делает LLM такими мощными: каждый токен может обрабатывать любой другой токен в контексте. Но есть цена: матрица внимания растет пропорционально квадрату длины последовательности. Удвоение контекстного окна не удваивает стоимость, а увеличивает ее в четыре раза. В этом уроке рассматриваются инженерные достижения, которые сделали контекстные окна с токенами 128 КБ и 1 М на практике.

Content is available with subscription.

Get full access to all courses on the platform for one year with a single payment.

Unlike other platforms that charge per course, here you get everything for one price, and after one year of use there will be no automatic charge for the following year.

🔒 Sign in to use this