Serving LLM: vLLM, TGI, KV-cache, batching

🔒 Sign in to use this

Обслуживание LLM: vLLM, TGI, KV-кэш, пакетная обработка

Обучение учит модель прогнозировать следующий токен. Обслуживание — это все, что происходит, когда пользователи на самом деле его вызывают: планирование тысяч одновременных запросов, увеличение тензоров KV-кэша по мере удлинения последовательностей, пакетная обработка несовместимых фигур без потери оперативной памяти графического процессора и насыщение тензорных ядер при SLO с реальной задержкой. Такие платформы, как vLLM (PagedAttention) и Text Generation Inference (TGI), существуют потому, что простые циклы PyTorch не могут справиться с рабочей нагрузкой.

Content is available with subscription.

Get full access to all courses on the platform for one year with a single payment.

Unlike other platforms that charge per course, here you get everything for one price, and after one year of use there will be no automatic charge for the following year.

🔒 Sign in to use this