Vision-Language Models: LLaVA, GPT-4V-style архитектуры
🔒 Sign in to use this
Модели с языком видения: LLaVA, GPT-4V и Gemini.
CLIP показал, что изображения и текст могут находиться в одном и том же пространстве встраивания. Модели языка видения (VLM) идут дальше: они дают языковой модели способность *понимать* изображения — не только сопоставлять их с подписями, но и отвечать на подробные вопросы, рассуждать о пространственных отношениях, читать текст в изображениях и описывать сложные сцены. GPT-4V, Gemini и LLaVA используют одну и ту же архитектуру высокого уровня: визуальный кодер (обычно на основе CLIP), уровень проекции и языковую модель.
Content is available with subscription.
Get full access to all courses on the platform for one year with a single payment.
▼
▼
Unlike other platforms that charge per course, here you get everything for one price, and after one year of use there will be no automatic charge for the following year.
🔒 Sign in to use this