Appearance
Embedding 模型对比
Embedding(文本嵌入)是 RAG 系统和 语义搜索 的核心组件。选择一个合适的 embedding 模型直接影响检索质量和最终生成效果。本页对比当前主流 embedding 模型在质量、速度、多语言支持和成本上的差异。
对比概览
| 维度 | text-embedding-3-large | Cohere embed-v3 | BGE-M3 | E5-Mistral | GTE-large | Jina-embeddings-v2 |
|---|---|---|---|---|---|---|
| 厂商 | OpenAI | Cohere | BAAI (智源) | Microsoft | Alibaba (阿里) | Jina AI |
| 开源性 | 闭源 (API) | 闭源 (API) | 开源 (MIT) | 开源 (MIT) | 开源 (Apache 2.0) | 开源 (Apache 2.0) |
| 参数规模 | 未公开 | 未公开 | 568M | 7B (Mistral) | 434M | 137M |
| 输出维度 | 3,072 | 1,024 | 1,024 | 4,096 | 1,024 | 768 |
| 上下文长度 | 8,192 | 512 | 8,192 | 32,768 | 512 | 8,192 |
| MTEB (英文) | 64.6% | 64.5% | 64.8% | 66.4% | 63.5% | 60.1% |
| MTEB (多语言) | 62.3% | 63.1% | 65.1% | 64.2% | 61.8% | 58.4% |
| 多语言支持 | 96 种 | 100+ 种 | 100+ 种 | 100 种 | 英文为主 | 89 种 |
| API 价格 ($/1M tokens) | $0.13 | $0.10 | 免费 (自托管) | 免费 (自托管) | 免费 (自托管) | 免费 (自托管) |
| 自托管可行性 | 否 | 否 | 是 (24GB VRAM) | 是 (16GB VRAM) | 是 (8GB VRAM) | 是 (4GB VRAM) |
MTEB 分数为平均分数(Classification + Clustering + PairClassification + Reranking + Retrieval + STS + Summarization),数据截至 2025 年初。
关键差异
闭源 API:简单但受限
OpenAI text-embedding-3 系列:
- text-embedding-3-large:质量最高(64.6%),维度 3,072,适合高精度场景
- text-embedding-3-small:性价比选择,维度 1,536,价格仅为 large 的 1/5
- 优势:零运维、稳定性高、与 OpenAI 生态集成
- 劣势:数据必须出境、无法微调、维度固定
Cohere embed-v3:
- 专为 RAG 和搜索优化,在检索任务上表现突出
- 支持 100+ 语言,多语言场景优于 OpenAI
- 提供
embed-english-v3和embed-multilingual-v3两个版本 - 与 Cohere 的 Rerank 模型配合使用效果更佳
开源模型:灵活且免费
BGE-M3(BAAI General Embedding Multi-Lingual Multi-Functionality)是开源 embedding 的综合标杆:
- 多语言:100+ 语言支持,中文效果尤其出色
- 多功能:支持 Dense、Sparse、ColBERT 三种检索模式
- 长上下文:8,192 token 上下文,适合长文档嵌入
- 可通过 FlagEmbedding 库一键使用
- 自托管需要约 24GB VRAM(FP16)
E5-Mistral(Microsoft):
- 基于 Mistral-7B,质量最高(66.4% MTEB)
- 32K 上下文窗口,适合超长文档
- 但推理成本较高(7B 参数),需要 16GB+ VRAM
- 适合对质量极度敏感、有充足算力的场景
GTE-large(Alibaba):
- 阿里达摩院出品,中文场景表现优秀
- 434M 参数,平衡了质量和速度
- 与 Qwen 生态整合良好
- 自托管门槛低(8GB VRAM)
Jina-embeddings-v2:
- 仅 137M 参数,极轻量
- 8K 上下文,适合长文本
- 自托管门槛最低(4GB VRAM 甚至 CPU 可行)
- 质量略低于大型模型,但性价比极高
任务细分对比
不同 embedding 模型在不同任务上表现差异显著:
| 任务类型 | 最佳模型 | 分数 | 说明 |
|---|---|---|---|
| 检索 (Retrieval) | E5-Mistral | 56.9% | 长查询理解能力强 |
| BGE-M3 | 55.8% | Dense + Sparse 混合检索 | |
| Cohere embed-v3 | 55.2% | 专为搜索优化 | |
| 语义相似度 (STS) | GTE-large | 85.1% | 句子级别匹配精准 |
| text-embedding-3-large | 84.6% | 稳定高质量 | |
| 分类 (Classification) | E5-Mistral | 78.3% | 语义理解深度强 |
| BGE-M3 | 77.5% | 多语言分类优秀 | |
| 聚类 (Clustering) | Cohere embed-v3 | 49.2% | 语义空间结构好 |
| text-embedding-3-large | 48.8% | 向量空间均匀 | |
| 重排序 (Reranking) | BGE-M3 | 60.1% | 内置 ColBERT 交互 |
维度与存储成本
Embedding 维度直接影响向量数据库的存储和检索成本:
| 模型 | 维度 | 每百万向量存储 (FP32) | 每百万向量存储 (量化后) |
|---|---|---|---|
| text-embedding-3-large | 3,072 | 12.3 GB | 3.1 GB (INT8) |
| E5-Mistral | 4,096 | 16.4 GB | 4.1 GB (INT8) |
| BGE-M3 | 1,024 | 4.1 GB | 1.0 GB (INT8) |
| Cohere embed-v3 | 1,024 | 4.1 GB | 1.0 GB (INT8) |
| GTE-large | 1,024 | 4.1 GB | 1.0 GB (INT8) |
| Jina-embeddings-v2 | 768 | 3.1 GB | 0.8 GB (INT8) |
关键洞察:高维度 ≠ 高质量。text-embedding-3-large 的 3,072 维在部分任务上不如 1,024 维的 BGE-M3。维度选择应综合考虑质量、存储成本和检索速度。
多语言支持对比
| 语言 | text-embedding-3 | Cohere embed-v3 | BGE-M3 | E5-Mistral | GTE |
|---|---|---|---|---|---|
| 英文 | ★★★★★ | ★★★★★ | ★★★★★ | ★★★★★ | ★★★★☆ |
| 中文 | ★★★★☆ | ★★★★☆ | ★★★★★ | ★★★★☆ | ★★★★★ |
| 欧洲语言 | ★★★★★ | ★★★★★ | ★★★★★ | ★★★★★ | ★★★★☆ |
| 日韩 | ★★★★☆ | ★★★★★ | ★★★★★ | ★★★★☆ | ★★★★☆ |
| 阿拉伯/希伯来 | ★★★☆☆ | ★★★★☆ | ★★★★☆ | ★★★★☆ | ★★★☆☆ |
BGE-M3 在中文上的优势使其成为中国 RAG 应用的首选。Cohere embed-v3 在日韩语上略胜一筹。
决策矩阵
| 场景 | 推荐模型 | 理由 |
|---|---|---|
| 快速启动、零运维 | OpenAI text-embedding-3-small | 价格低、稳定性高、无需基础设施 |
| 最高检索质量、有算力 | E5-Mistral | MTEB 第一,32K 上下文 |
| 中文 RAG 项目 | BGE-M3 | 中文最优,多功能检索 |
| 多语言企业搜索 | Cohere embed-v3 | 100+ 语言,搜索优化 |
| 成本极度敏感 | Jina-embeddings-v2 | 137M 参数,CPU 可跑 |
| 阿里云生态 | GTE-large | 与 Qwen、百炼平台整合 |
| 隐私合规(数据不出境) | BGE-M3 / GTE | 开源可自托管 |
| 超大向量库(十亿级) | text-embedding-3-small 或 Jina | 低维度 = 低存储 = 快检索 |
与 Reranker 的配合
Embedding 负责召回(找到候选文档),Reranker 负责精排(确定最终顺序)。两者配合可大幅提升 RAG 质量:
| Reranker | 厂商 | 特点 |
|---|---|---|
| Cohere Rerank | Cohere | API 易用,与 embed-v3 配合好 |
| BGE-Reranker | BAAI | 开源,与 BGE-M3 同生态 |
| Jina Reranker | Jina AI | 轻量,开源 |
| ColBERT | Stanford | 细粒度交互,效果最佳但计算重 |
典型 pipeline:BGE-M3 召回 Top-100 → BGE-Reranker 精排 Top-5 → LLM 生成。
相关页面
- Embedding Models / Vector Representations — Embedding 技术原理详解
- Vector Databases — 向量数据库选型与性能
- Semantic Search — 语义搜索技术实现
- Retrieval Augmented Generation — RAG 系统构建指南
- RAG vs Long Context — RAG 与长上下文的权衡
参考来源
MTEB Leaderboard (2025). huggingface.co/spaces/mteb/leaderboard
OpenAI (2024). "New embedding models and API updates."
Cohere (2024). "Embed v3: Better retrieval for RAG."
BAAI (2024). "BGE M3-Embedding: Multi-Lingual, Multi-Functionality, Multi-Granularity."
Wang et al. (2024). "Improving Text Embeddings with Large Language Models." (E5-Mistral)
Jina AI (2024). "jina-embeddings-v2: 8K Context Length Embeddings."
Large Language Model (LLM) — 大语言模型的核心定义、技术原理与发展历程