Appearance
Multimodal Models
多模态模型是能够处理和关联两种以上模态(文本、图像、音频、视频)信息的 AI 系统。从 CLIP(2021)到 GPT-4V 和 Gemini(2023-2024),多模态能力正在成为前沿模型的标配。
Definition
多模态模型(Multimodal Models / Vision-Language Models)的核心架构模式为:视觉编码器 + 连接器 + 大语言模型。视觉编码器将图像/视频转为特征表示,连接器(如 Q-Former 或简单投影层)将其映射到 LLM 的语义空间,LLM 在此空间中进行跨模态推理。
Current Understanding
关键架构里程碑
| 架构 | 机构 | 年份 | 核心思路 |
|---|---|---|---|
| CLIP | OpenAI | 2021 | 4 亿图文对对比学习,双编码器对齐嵌入空间 |
| Flamingo | DeepMind | 2022 | 门控交叉注意力实现少样本 VLM |
| BLIP-2 | Salesforce | 2023 | Q-Former 桥接冻结的视觉编码器与冻结的 LLM |
| LLaVA | Microsoft | 2023 | 简单投影层 + 指令微调,开源可复现 |
| GPT-4V | OpenAI | 2023 | 多模态 GPT-4,图像/图表/文档理解 |
| Gemini | 2023-2025 | 原生多模态(文本+图像+音频+视频) |
当前能力
- 图像理解:细粒度物体识别、文字识别(OCR)、图表推理、空间理解
- 视频:帧级理解(Gemini、GPT-4V);密集视频理解正在快速提升
- 音频:Gemini 原生支持音频,GPT-4o 集成语音输入输出
Why It Matters
- 多模态是从"纯文本 AI"迈向"感知 AI"的关键一步——Google Gemini & DeepMind 和 OpenAI 的 GPT-4V 已证明了这一点
- 理解多模态架构有助于理解 Transformer Architecture 如何从纯文本扩展到跨模态
- 当前多模态的评测基准(MMMU、MMBench)仍在快速演变——表明这个领域尚处于早期阶段
- 与 AI Agents 结合后,Agent 可以通过视觉感知环境而非纯文本交互
Related Concepts
- 相关概念:Transformer Architecture、AI Agents、Model Inference & Deployment、Diffusion Models
- 相关实体:OpenAI、Google Gemini & DeepMind、Mistral AI
Open Questions
- 视觉幻觉(visual hallucination)如何系统降低?
- 多模态模型能否真正实现"世界理解",而只是表面对齐?
- 标准化的多模态评估体系何时成熟?
Sources
- raw/articles/multimodal-models-research-2026-04-26.md