Квантизация и ускорение инференса: GPTQ, AWQ, speculative decoding

🔒 Sign in to use this

Квантование и более быстрый вывод: GPTQ, AWQ, спекулятивное декодирование.

Для обслуживания модели 70B в FP16 требуется примерно 140 ГБ памяти графического процессора только для весов — без KV-кэша, активаций или пакетной обработки. Квантование сопоставляет веса высокой точности с меньшим количеством битов (INT8, INT4 и даже ниже), поэтому та же модель подходит для более дешевого оборудования и работает быстрее на тензорных ядрах, созданных для целочисленных вычислений. В этом уроке рассматриваются методы квантования после обучения (PTQ), используемые в производстве — GPTQ и AWQ — и спекулятивное декодирование — дополнительный прием, который ускоряет генерацию без изменения весов.

Content is available with subscription.

Get full access to all courses on the platform for one year with a single payment.

Unlike other platforms that charge per course, here you get everything for one price, and after one year of use there will be no automatic charge for the following year.

🔒 Sign in to use this