Генеративные и дискриминативные модели: в чём разница
Большинство классических задач машинного обучения являются дискриминативными: модель учится сопоставлять входные данные X с меткой Y. Спам-фильтр выводит спам/не спам. Детектор объектов возвращает координаты ограничивающего прямоугольника. Модель делает выводы о существующих данных — она не создает ничего нового.
ℹ️Генеративная модель — модель, которая изучает распределение данных P(X) и может выбирать из него новые примеры. Вместо того, чтобы спрашивать: «Что это за объект?» он отвечает: «Как выглядит типичный объект из этого мира?» GPT генерирует текст, которого раньше никогда не существовало; Стабильная диффузия рисует изображение из чистого случайного шума.
Ключевые различия между двумя подходами
Aspect
Discriminative
Generative
Цель тренировки
Прогнозировать метку P(Y|X)
Распределение данных модели P(X) или P(X|Y)
Выход
Класс, номер, ограничивающая рамка
Новый текст, изображение, аудио, видео
Этикетки
Обязательно (контролируется)
Часто не требуется (самоконтроль)
Примеры задач
Классификация, регрессия, НЭР
Генерация текста, синтез изображений, перевод
Примеры моделей
БЕРТ, СВМ, XGBoost, ResNet
GPT, Клод, Стабильная диффузия, GAN, VAE
Граница не абсолютна. BERT обучается без меток (предсказание токенов по маске), но используется для различительных задач. Классификатор на основе GPT технически представляет собой генеративную архитектуру, используемую для дискриминации. Ключевое отличие заключается в цели обучения, а не в архитектуре.
Карта генеративного ИИ: шесть семей
Нажмите на карточку, чтобы узнать больше
🔤
LLM
🎨
Диффузия
⚔️
ГАН
🗜️
ВАЭ
🎵
Генерация звука
🎬
Генерация видео
Почему генеративный ИИ возможен прямо сейчас
Идеи, лежащие в основе генеративных моделей, не новы: GAN были представлены в 2014 году, VAE — в 2013 году. Что изменилось, так это конвергенция трёх факторов, которая сделала масштабное обучение возможным и продуктивным.
Три фактора сошлись воедино, чтобы сделать возможным GenAI ▶
🏗️
Трансформатор
2017: внимание к себе
→
🖥️
графический процессор / ТПУ
×10 000 против 2012 г.
→
🌐
Данные
Интернет-корпорации
→
📈
Законы масштабирования
Больше данных + параметров = лучше
→
🤖
ГенИИ
GPT-3 → GPT-4 → Клод
Ключевые выводы
Генеративный ИИ — это сдвиг парадигмы: вместо того, чтобы выводить метки из данных, модели учатся создавать новые данные, которые выглядят так, как будто они получены из того же распределения. Это стало практичным благодаря конвергенции архитектуры преобразователя, масштабированию вычислений на графических процессорах и наборам данных в масштабе Интернета.
Дискриминационные модели изучают P(Y|X) — сопоставление входных данных с метками.
Генераторные модели изучают P(X) — само распределение данных, из которого можно выбирать новые примеры.
Архитектура может быть идентичной (в обоих используются преобразователи) — разница в цели обучения.
Шесть основных семейств: LLM, Diffusion, GAN, VAE, Audio Gen, Video Gen.
GenAI стал практичным благодаря преобразователю (2017 г.), масштабированию вычислений и данным в масштабе Интернета — все три одновременно