Multimodal Models

多模态模型是能够处理和关联两种以上模态（文本、图像、音频、视频）信息的 AI 系统。从 CLIP（2021）到 GPT-4V 和 Gemini（2023-2024），多模态能力正在成为前沿模型的标配。

Definition

多模态模型（Multimodal Models / Vision-Language Models）的核心架构模式为：视觉编码器 + 连接器 + 大语言模型。视觉编码器将图像/视频转为特征表示，连接器（如 Q-Former 或简单投影层）将其映射到 LLM 的语义空间，LLM 在此空间中进行跨模态推理。

Current Understanding

关键架构里程碑

架构	机构	年份	核心思路
CLIP	OpenAI	2021	4 亿图文对对比学习，双编码器对齐嵌入空间
Flamingo	DeepMind	2022	门控交叉注意力实现少样本 VLM
BLIP-2	Salesforce	2023	Q-Former 桥接冻结的视觉编码器与冻结的 LLM
LLaVA	Microsoft	2023	简单投影层 + 指令微调，开源可复现
GPT-4V	OpenAI	2023	多模态 GPT-4，图像/图表/文档理解
Gemini	Google	2023-2025	原生多模态（文本+图像+音频+视频）

当前能力

图像理解：细粒度物体识别、文字识别（OCR）、图表推理、空间理解
视频：帧级理解（Gemini、GPT-4V）；密集视频理解正在快速提升
音频：Gemini 原生支持音频，GPT-4o 集成语音输入输出

Why It Matters

多模态是从"纯文本 AI"迈向"感知 AI"的关键一步——Google Gemini & DeepMind 和 OpenAI 的 GPT-4V 已证明了这一点
理解多模态架构有助于理解 Transformer Architecture 如何从纯文本扩展到跨模态
当前多模态的评测基准（MMMU、MMBench）仍在快速演变——表明这个领域尚处于早期阶段
与 AI Agents 结合后，Agent 可以通过视觉感知环境而非纯文本交互

相关概念：Transformer Architecture、AI Agents、Model Inference & Deployment、Diffusion Models
相关实体：OpenAI、Google Gemini & DeepMind、Mistral AI

Open Questions

视觉幻觉（visual hallucination）如何系统降低？
多模态模型能否真正实现"世界理解"，而只是表面对齐？
标准化的多模态评估体系何时成熟？

Sources

raw/articles/multimodal-models-research-2026-04-26.md

Multimodal Models ​

Definition ​

Current Understanding ​

关键架构里程碑 ​

当前能力 ​

Why It Matters ​

Related Concepts ​

Open Questions ​

Sources ​

Multimodal Models

Definition

Current Understanding

关键架构里程碑

当前能力

Why It Matters

Related Concepts

Open Questions

Sources