Serving LLM: vLLM, TGI, KV-cache, batching
🔒 Sign in to use this
Обслуживание LLM: vLLM, TGI, KV-кэш, пакетная обработка
Обучение учит модель прогнозировать следующий токен. Обслуживание — это все, что происходит, когда пользователи на самом деле его вызывают: планирование тысяч одновременных запросов, увеличение тензоров KV-кэша по мере удлинения последовательностей, пакетная обработка несовместимых фигур без потери оперативной памяти графического процессора и насыщение тензорных ядер при SLO с реальной задержкой. Такие платформы, как vLLM (PagedAttention) и Text Generation Inference (TGI), существуют потому, что простые циклы PyTorch не могут справиться с рабочей нагрузкой.
Content is available with subscription.
Get full access to all courses on the platform for one year with a single payment.
▼
▼
Unlike other platforms that charge per course, here you get everything for one price, and after one year of use there will be no automatic charge for the following year.
🔒 Sign in to use this