Квантизация и ускорение инференса: GPTQ, AWQ, speculative decoding
🔒 Sign in to use this
Квантование и более быстрый вывод: GPTQ, AWQ, спекулятивное декодирование.
Для обслуживания модели 70B в FP16 требуется примерно 140 ГБ памяти графического процессора только для весов — без KV-кэша, активаций или пакетной обработки. Квантование сопоставляет веса высокой точности с меньшим количеством битов (INT8, INT4 и даже ниже), поэтому та же модель подходит для более дешевого оборудования и работает быстрее на тензорных ядрах, созданных для целочисленных вычислений. В этом уроке рассматриваются методы квантования после обучения (PTQ), используемые в производстве — GPTQ и AWQ — и спекулятивное декодирование — дополнительный прием, который ускоряет генерацию без изменения весов.
Content is available with subscription.
Get full access to all courses on the platform for one year with a single payment.
▼
▼
Unlike other platforms that charge per course, here you get everything for one price, and after one year of use there will be no automatic charge for the following year.
🔒 Sign in to use this