Эффективное внимание: Flash Attention, RoPE, длинный контекст
🔒 Sign in to use this
Эффективное внимание: мгновенное внимание, RoPE и длинный контекст
Механизм самообслуживания преобразователя делает LLM такими мощными: каждый токен может обрабатывать любой другой токен в контексте. Но есть цена: матрица внимания растет пропорционально квадрату длины последовательности. Удвоение контекстного окна не удваивает стоимость, а увеличивает ее в четыре раза. В этом уроке рассматриваются инженерные достижения, которые сделали контекстные окна с токенами 128 КБ и 1 М на практике.
Content is available with subscription.
Get full access to all courses on the platform for one year with a single payment.
▼
▼
Unlike other platforms that charge per course, here you get everything for one price, and after one year of use there will be no automatic charge for the following year.
🔒 Sign in to use this