Skip to content

Multimodal Models

多模态模型是能够处理和关联两种以上模态(文本、图像、音频、视频)信息的 AI 系统。从 CLIP(2021)到 GPT-4V 和 Gemini(2023-2024),多模态能力正在成为前沿模型的标配。

Definition

多模态模型(Multimodal Models / Vision-Language Models)的核心架构模式为:视觉编码器 + 连接器 + 大语言模型。视觉编码器将图像/视频转为特征表示,连接器(如 Q-Former 或简单投影层)将其映射到 LLM 的语义空间,LLM 在此空间中进行跨模态推理。

Current Understanding

关键架构里程碑

架构机构年份核心思路
CLIPOpenAI20214 亿图文对对比学习,双编码器对齐嵌入空间
FlamingoDeepMind2022门控交叉注意力实现少样本 VLM
BLIP-2Salesforce2023Q-Former 桥接冻结的视觉编码器与冻结的 LLM
LLaVAMicrosoft2023简单投影层 + 指令微调,开源可复现
GPT-4VOpenAI2023多模态 GPT-4,图像/图表/文档理解
GeminiGoogle2023-2025原生多模态(文本+图像+音频+视频)

当前能力

  • 图像理解:细粒度物体识别、文字识别(OCR)、图表推理、空间理解
  • 视频:帧级理解(Gemini、GPT-4V);密集视频理解正在快速提升
  • 音频:Gemini 原生支持音频,GPT-4o 集成语音输入输出

Why It Matters

  • 多模态是从"纯文本 AI"迈向"感知 AI"的关键一步——Google Gemini & DeepMindOpenAI 的 GPT-4V 已证明了这一点
  • 理解多模态架构有助于理解 Transformer Architecture 如何从纯文本扩展到跨模态
  • 当前多模态的评测基准(MMMU、MMBench)仍在快速演变——表明这个领域尚处于早期阶段
  • AI Agents 结合后,Agent 可以通过视觉感知环境而非纯文本交互

Open Questions

  • 视觉幻觉(visual hallucination)如何系统降低?
  • 多模态模型能否真正实现"世界理解",而只是表面对齐?
  • 标准化的多模态评估体系何时成熟?

Sources

  • raw/articles/multimodal-models-research-2026-04-26.md

AI Knowledge Base — 持续积累