Appearance
多模态模型对比
多模态能力——理解图像、视频、音频并与文本结合推理——正在成为前沿 LLM 的标配。从 OpenAI 的 GPT-4o 到 Google DeepMind 的 Gemini 2.5 Pro,各厂商在多模态架构和能力侧重上各有特色。本页对比当前主流多模态模型在视觉理解、视频分析、OCR 和跨模态推理上的差异。
对比概览
| 维度 | GPT-4o | Gemini 2.5 Pro | Claude 3.5 Sonnet | Qwen2.5-VL | LLaVA-1.6 | InternVL2.5 |
|---|---|---|---|---|---|---|
| 厂商 | OpenAI | Anthropic | 阿里云 | 社区 (LIU) | 上海 AI Lab | |
| 开源性 | 闭源 | 闭源 | 闭源 | 开源 (Apache 2.0) | 开源 (Apache 2.0) | 开源 (Apache 2.0) |
| 图像理解 | ★★★★★ | ★★★★★ | ★★★★★ | ★★★★☆ | ★★★☆☆ | ★★★★☆ |
| 视频理解 | 帧采样 | ★★★★★ (原生) | 有限 | ★★★★☆ | 不支持 | ★★★★☆ |
| 音频理解 | ★★★★★ (原生) | ★★★★★ | 不支持 | 不支持 | 不支持 | 不支持 |
| OCR / 文档 | ★★★★★ | ★★★★★ | ★★★★★ | ★★★★★ | ★★★☆☆ | ★★★★☆ |
| MMMU (大学级) | 69.1% | 78.4% | 68.3% | 64.2% | 54.7% | 62.8% |
| MMBench | 83.4% | 86.2% | 81.5% | 79.6% | 72.3% | 78.4% |
| MathVista | 63.8% | 70.5% | 61.2% | 58.4% | 47.6% | 55.2% |
| ChartQA | 85.2% | 88.1% | 83.7% | 81.5% | 68.4% | 76.3% |
| DocVQA | 92.1% | 93.5% | 91.8% | 90.2% | 78.5% | 85.7% |
| 上下文窗口 | 128K | 1M | 200K | 128K | 4K | 32K |
| 输入价格 ($/1M tokens) | $2.50 | $1.25 | $3.00 | 免费 (自托管) | 免费 | 免费 |
注:开源模型分数为官方报告或社区复现,闭源模型分数来自官方技术报告。
关键差异
闭源三强:各有侧重
GPT-4o — 最均衡的多模态模型:
- 原生音频:唯一支持端到端音频输入输出的模型(非 ASR + TTS 拼接)
- 图像理解精确,OCR 能力极强
- 与 ChatGPT 生态深度整合,使用门槛最低
- 视频理解通过帧采样实现,非原生视频架构
Gemini 2.5 Pro — 最强原生多模态:
- 原生视频理解:不是帧采样,而是真正的视频时序建模
- 1M 上下文:可一次性分析整部电影或长视频
- 在几乎所有视觉 benchmark 上领先
- 音频 + 视频 + 图像 + 文本的统一架构
Claude 3.5 Sonnet — 文档与 UI 理解:
- PDF / 文档理解能力突出,表格、图表解析精准
- 在复杂 UI 截图理解和前端代码生成上表现优秀
- 安全性高,适合企业文档处理
- 不支持音频和视频(截至 2025 年初)
开源选择:Qwen-VL 领先
Qwen2.5-VL 是开源多模态模型的标杆:
- Apache 2.0 许可,可商用
- 支持图像、视频、文档理解
- 中文场景优化,中文 OCR 和文档理解能力强
- 可通过 vLLM 本地部署
- 在开源模型中 MMMU 分数最高
LLaVA-1.6(Large Language and Vision Assistant):
- 学术界最流行的开源多模态模型
- 架构简单:视觉编码器(CLIP)+ 投影层 + LLM
- 易于微调和扩展
- 但能力明显落后于闭源模型和 Qwen-VL
InternVL2.5(上海 AI Lab):
- 8B 到 78B 多尺寸覆盖
- 在中文视觉理解上表现优秀
- 支持高分辨率图像(4K+)
- 医学影像理解有专门优化版本
能力细分对比
图像理解
| 子任务 | 最佳模型 | 说明 |
|---|---|---|
| 物体识别 | GPT-4o / Gemini | 细粒度分类准确 |
| 场景描述 | Gemini 2.5 Pro | 细节丰富,关系准确 |
| 视觉推理 | Gemini 2.5 Pro | 空间关系、物理推理 |
| 图表理解 | Claude 3.5 / GPT-4o | 数据提取精准 |
| UI 截图 → 代码 | Claude 3.5 | 前端代码还原度高 |
| 医学影像 | InternVL2.5-Med | 专门训练版本 |
| 中文图像 | Qwen2.5-VL | 中文 OCR 和描述最佳 |
视频理解
| 模型 | 视频处理方式 | 最大时长 | 特点 |
|---|---|---|---|
| Gemini 2.5 Pro | 原生视频编码 | 无明确上限 | 真正的时序理解 |
| GPT-4o | 帧采样 (约 1fps) | 几分钟 | 通过图像理解间接处理 |
| Qwen2.5-VL | 帧采样 + 时序 | 数分钟 | 开源中最强 |
| Claude 3.5 | 不支持 | — | 仅图像 |
Gemini 的原生视频架构使其在动作识别、时序推理、视频问答上显著领先。其他模型本质上是在"看幻灯片"。
OCR 与文档理解
| 模型 | 印刷体 OCR | 手写 OCR | 表格 | 多栏排版 | 多语言 |
|---|---|---|---|---|---|
| GPT-4o | ★★★★★ | ★★★★☆ | ★★★★★ | ★★★★★ | 96 种 |
| Gemini 2.5 Pro | ★★★★★ | ★★★★★ | ★★★★★ | ★★★★★ | 100+ |
| Claude 3.5 | ★★★★★ | ★★★★☆ | ★★★★★ | ★★★★☆ | 主要语言 |
| Qwen2.5-VL | ★★★★★ | ★★★★☆ | ★★★★☆ | ★★★★☆ | 中文最优 |
架构差异
统一架构 vs 拼接架构
统一架构(GPT-4o、Gemini):
- 单一模型同时处理文本、图像、音频、视频
- 所有模态共享同一个 Transformer 主干
- 优势:跨模态推理自然,信息融合充分
- 劣势:训练复杂,模型体积大
拼接架构(LLaVA、早期 Qwen-VL):
- 视觉编码器(如 CLIP ViT)→ 投影层 → 文本 LLM
- 优势:架构简单,易于复现和微调
- 劣势:视觉和文本的融合较浅,能力天花板低
趋势:行业正向统一架构演进。Qwen2.5-VL 已从拼接架构进化为更统一的设计。
使用场景推荐
| 场景 | 推荐模型 | 理由 |
|---|---|---|
| 通用多模态助手 | GPT-4o | 最均衡,生态最大 |
| 视频分析/理解 | Gemini 2.5 Pro | 原生视频,时序推理最强 |
| 文档/PDF 处理 | Claude 3.5 / GPT-4o | OCR 精准,表格解析好 |
| 中文多模态应用 | Qwen2.5-VL | 中文最优,开源可部署 |
| 医学影像分析 | InternVL2.5-Med | 医学专门训练 |
| UI 自动化/测试 | Claude 3.5 | 截图 → 代码能力最强 |
| 语音 + 视觉交互 | GPT-4o | 原生音频 + 图像 |
| 私有化部署 | Qwen2.5-VL / LLaVA | 开源,数据可控 |
| 教育(图像问答) | Gemini 2.5 Pro | MMMU 大学级题目最强 |
开源部署成本
| 模型 | 推荐量化 | 显存需求 | 适用硬件 |
|---|---|---|---|
| Qwen2.5-VL-7B | INT8 | 16 GB | RTX 4090 / A10 |
| Qwen2.5-VL-72B | INT4 | 48 GB | A100 80GB × 1 |
| LLaVA-1.6-34B | INT4 | 24 GB | A100 40GB |
| InternVL2.5-26B | INT8 | 32 GB | A100 40GB |
多模态模型的显存需求高于纯文本模型(需要加载视觉编码器)。
趋势观察
模态统一化
2024-2025 年的核心趋势是从"文本 + 视觉"向"全模态统一"演进:
- GPT-4o 实现了文本 + 图像 + 音频的统一
- Gemini 2.5 Pro 加入了原生视频
- 下一步:触觉、3D 点云、传感器数据
开源追赶
Qwen2.5-VL 在 MMMU 上达到 64.2%,与 GPT-4o (69.1%) 的差距约 5 百分点——在可接受范围内。开源多模态模型已具备生产可用性。
垂直优化
医学(InternVL-Med)、自动驾驶、工业检测等领域的垂直多模态模型正在兴起,通过领域数据微调达到超越通用模型的效果。
相关页面
- Multimodal Models — 多模态模型技术原理
- GPT-4o vs Claude vs Gemini 2.5 Pro — 通用模型能力对比
- 图像生成模型对比 — 图像生成模型对比
- Text-to-Video / Video Generation — 视频生成技术
- Qwen — Qwen 模型家族
- Google DeepMind — Gemini 背后的实验室
参考来源
OpenAI (2024). "GPT-4o System Card."
Google DeepMind (2025). "Gemini 2.5 Pro Technical Report."
Anthropic (2024). "Claude 3.5 Sonnet Model Card."
Qwen (2025). "Qwen2.5-VL Technical Report."
Liu et al. (2024). "Improved Baselines with Visual Instruction Tuning." (LLaVA-1.6)
Chen et al. (2024). "InternVL: Scaling up Vision Foundation Models and Aligning for Generic Visual-Linguistic Tasks."
MMMU Benchmark (2025). mmmu-benchmark.github.io
MMBench Leaderboard (2025). opencompass.org.cn
Large Language Model (LLM) — 大语言模型的核心定义、技术原理与发展历程