Vision-Language Models: LLaVA, GPT-4V-style архитектуры

🔒 Sign in to use this

Модели с языком видения: LLaVA, GPT-4V и Gemini.

CLIP показал, что изображения и текст могут находиться в одном и том же пространстве встраивания. Модели языка видения (VLM) идут дальше: они дают языковой модели способность *понимать* изображения — не только сопоставлять их с подписями, но и отвечать на подробные вопросы, рассуждать о пространственных отношениях, читать текст в изображениях и описывать сложные сцены. GPT-4V, Gemini и LLaVA используют одну и ту же архитектуру высокого уровня: визуальный кодер (обычно на основе CLIP), уровень проекции и языковую модель.

Content is available with subscription.

Get full access to all courses on the platform for one year with a single payment.

Unlike other platforms that charge per course, here you get everything for one price, and after one year of use there will be no automatic charge for the following year.

🔒 Sign in to use this