多模态模型对比

多模态能力——理解图像、视频、音频并与文本结合推理——正在成为前沿 LLM 的标配。从 OpenAI 的 GPT-4o 到 Google DeepMind 的 Gemini 2.5 Pro，各厂商在多模态架构和能力侧重上各有特色。本页对比当前主流多模态模型在视觉理解、视频分析、OCR 和跨模态推理上的差异。

对比概览

维度	GPT-4o	Gemini 2.5 Pro	Claude 3.5 Sonnet	Qwen2.5-VL	LLaVA-1.6	InternVL2.5
厂商	OpenAI	Google	Anthropic	阿里云	社区 (LIU)	上海 AI Lab
开源性	闭源	闭源	闭源	开源 (Apache 2.0)	开源 (Apache 2.0)	开源 (Apache 2.0)
图像理解	★★★★★	★★★★★	★★★★★	★★★★☆	★★★☆☆	★★★★☆
视频理解	帧采样	★★★★★ (原生)	有限	★★★★☆	不支持	★★★★☆
音频理解	★★★★★ (原生)	★★★★★	不支持	不支持	不支持	不支持
OCR / 文档	★★★★★	★★★★★	★★★★★	★★★★★	★★★☆☆	★★★★☆
MMMU (大学级)	69.1%	78.4%	68.3%	64.2%	54.7%	62.8%
MMBench	83.4%	86.2%	81.5%	79.6%	72.3%	78.4%
MathVista	63.8%	70.5%	61.2%	58.4%	47.6%	55.2%
ChartQA	85.2%	88.1%	83.7%	81.5%	68.4%	76.3%
DocVQA	92.1%	93.5%	91.8%	90.2%	78.5%	85.7%
上下文窗口	128K	1M	200K	128K	4K	32K
输入价格 ($/1M tokens)	$2.50	$1.25	$3.00	免费 (自托管)	免费	免费

注：开源模型分数为官方报告或社区复现，闭源模型分数来自官方技术报告。

关键差异

闭源三强：各有侧重

GPT-4o — 最均衡的多模态模型：

原生音频：唯一支持端到端音频输入输出的模型（非 ASR + TTS 拼接）
图像理解精确，OCR 能力极强
与 ChatGPT 生态深度整合，使用门槛最低
视频理解通过帧采样实现，非原生视频架构

Gemini 2.5 Pro — 最强原生多模态：

原生视频理解：不是帧采样，而是真正的视频时序建模
1M 上下文：可一次性分析整部电影或长视频
在几乎所有视觉 benchmark 上领先
音频 + 视频 + 图像 + 文本的统一架构

Claude 3.5 Sonnet — 文档与 UI 理解：

PDF / 文档理解能力突出，表格、图表解析精准
在复杂 UI 截图理解和前端代码生成上表现优秀
安全性高，适合企业文档处理
不支持音频和视频（截至 2025 年初）

开源选择：Qwen-VL 领先

Qwen2.5-VL 是开源多模态模型的标杆：

Apache 2.0 许可，可商用
支持图像、视频、文档理解
中文场景优化，中文 OCR 和文档理解能力强
可通过 vLLM 本地部署
在开源模型中 MMMU 分数最高

LLaVA-1.6（Large Language and Vision Assistant）：

学术界最流行的开源多模态模型
架构简单：视觉编码器（CLIP）+ 投影层 + LLM
易于微调和扩展
但能力明显落后于闭源模型和 Qwen-VL

InternVL2.5（上海 AI Lab）：

8B 到 78B 多尺寸覆盖
在中文视觉理解上表现优秀
支持高分辨率图像（4K+）
医学影像理解有专门优化版本

能力细分对比

图像理解

子任务	最佳模型	说明
物体识别	GPT-4o / Gemini	细粒度分类准确
场景描述	Gemini 2.5 Pro	细节丰富，关系准确
视觉推理	Gemini 2.5 Pro	空间关系、物理推理
图表理解	Claude 3.5 / GPT-4o	数据提取精准
UI 截图 → 代码	Claude 3.5	前端代码还原度高
医学影像	InternVL2.5-Med	专门训练版本
中文图像	Qwen2.5-VL	中文 OCR 和描述最佳

视频理解

模型	视频处理方式	最大时长	特点
Gemini 2.5 Pro	原生视频编码	无明确上限	真正的时序理解
GPT-4o	帧采样 (约 1fps)	几分钟	通过图像理解间接处理
Qwen2.5-VL	帧采样 + 时序	数分钟	开源中最强
Claude 3.5	不支持	—	仅图像

Gemini 的原生视频架构使其在动作识别、时序推理、视频问答上显著领先。其他模型本质上是在"看幻灯片"。

OCR 与文档理解

模型	印刷体 OCR	手写 OCR	表格	多栏排版	多语言
GPT-4o	★★★★★	★★★★☆	★★★★★	★★★★★	96 种
Gemini 2.5 Pro	★★★★★	★★★★★	★★★★★	★★★★★	100+
Claude 3.5	★★★★★	★★★★☆	★★★★★	★★★★☆	主要语言
Qwen2.5-VL	★★★★★	★★★★☆	★★★★☆	★★★★☆	中文最优

架构差异

统一架构 vs 拼接架构

统一架构（GPT-4o、Gemini）：

单一模型同时处理文本、图像、音频、视频
所有模态共享同一个 Transformer 主干
优势：跨模态推理自然，信息融合充分
劣势：训练复杂，模型体积大

拼接架构（LLaVA、早期 Qwen-VL）：

视觉编码器（如 CLIP ViT）→ 投影层 → 文本 LLM
优势：架构简单，易于复现和微调
劣势：视觉和文本的融合较浅，能力天花板低

趋势：行业正向统一架构演进。Qwen2.5-VL 已从拼接架构进化为更统一的设计。

使用场景推荐

场景	推荐模型	理由
通用多模态助手	GPT-4o	最均衡，生态最大
视频分析/理解	Gemini 2.5 Pro	原生视频，时序推理最强
文档/PDF 处理	Claude 3.5 / GPT-4o	OCR 精准，表格解析好
中文多模态应用	Qwen2.5-VL	中文最优，开源可部署
医学影像分析	InternVL2.5-Med	医学专门训练
UI 自动化/测试	Claude 3.5	截图 → 代码能力最强
语音 + 视觉交互	GPT-4o	原生音频 + 图像
私有化部署	Qwen2.5-VL / LLaVA	开源，数据可控
教育（图像问答）	Gemini 2.5 Pro	MMMU 大学级题目最强

开源部署成本

模型	推荐量化	显存需求	适用硬件
Qwen2.5-VL-7B	INT8	16 GB	RTX 4090 / A10
Qwen2.5-VL-72B	INT4	48 GB	A100 80GB × 1
LLaVA-1.6-34B	INT4	24 GB	A100 40GB
InternVL2.5-26B	INT8	32 GB	A100 40GB

多模态模型的显存需求高于纯文本模型（需要加载视觉编码器）。

趋势观察

模态统一化

2024-2025 年的核心趋势是从"文本 + 视觉"向"全模态统一"演进：

GPT-4o 实现了文本 + 图像 + 音频的统一
Gemini 2.5 Pro 加入了原生视频
下一步：触觉、3D 点云、传感器数据

开源追赶

Qwen2.5-VL 在 MMMU 上达到 64.2%，与 GPT-4o (69.1%) 的差距约 5 百分点——在可接受范围内。开源多模态模型已具备生产可用性。

垂直优化

医学（InternVL-Med）、自动驾驶、工业检测等领域的垂直多模态模型正在兴起，通过领域数据微调达到超越通用模型的效果。

参考来源

OpenAI (2024). "GPT-4o System Card."
Google DeepMind (2025). "Gemini 2.5 Pro Technical Report."
Anthropic (2024). "Claude 3.5 Sonnet Model Card."
Qwen (2025). "Qwen2.5-VL Technical Report."
Liu et al. (2024). "Improved Baselines with Visual Instruction Tuning." (LLaVA-1.6)
Chen et al. (2024). "InternVL: Scaling up Vision Foundation Models and Aligning for Generic Visual-Linguistic Tasks."
MMMU Benchmark (2025). mmmu-benchmark.github.io
MMBench Leaderboard (2025). opencompass.org.cn
Large Language Model (LLM) — 大语言模型的核心定义、技术原理与发展历程

多模态模型对比 ​

对比概览 ​

关键差异 ​

闭源三强：各有侧重 ​

开源选择：Qwen-VL 领先 ​

能力细分对比 ​

图像理解 ​

视频理解 ​

OCR 与文档理解 ​

架构差异 ​

统一架构 vs 拼接架构 ​

使用场景推荐 ​

开源部署成本 ​

趋势观察 ​

模态统一化 ​

开源追赶 ​

垂直优化 ​

相关页面 ​

参考来源 ​