Appearance
Mistral AI
来自法国的 AI 公司,以高效模型(尤其是 MoE 架构)和"开源权重+商业 API"双轨策略而迅速崛起。Mistral 是欧洲 AI 领域的标志性力量,也是理解开源大模型竞争格局的重要样本。
Overview
Mistral AI 于 2023 年 4 月在巴黎成立,三位联合创始人 Arthur Mensch、Guillaume Lample、Timothée Lacroix 均来自 Meta AI(FAIR)和 Google DeepMind。凭借高效架构和极小的初始团队,在不到两年内推出从 7B 到 123B 的多款模型。累计融资约 €11 亿,近期估值约 €60 亿+,是欧洲估值最高的 AI 创业公司。Mistral 是唯一一个与 Llama、Qwen、DeepSeek 并列为四大开源/开放权重家族的非美国公司。
Model Timeline
| 模型 | 发布时间 | 参数规模 | 上下文窗口 | 架构特点 |
|---|---|---|---|---|
| Mistral 7B | 2023-09 | 7B Dense | 8K (扩展 32K) | Apache 2.0,超越 Llama 2 13B;Sliding Window Attention |
| Mixtral 8x7B | 2023-12 | 46.7B MoE (12.9B 激活) | 32K | Apache 2.0,匹配 GPT-3.5;首个主流开源 MoE |
| Mistral Large | 2024-02 | 未公开 | 32K | 顶级旗舰,仅 API,MMLU 81.2% |
| Codestral | 2024-05 | 22B | 32K | 代码专用 |
| Mistral Large 2 | 2024-07 | 123B MoE (约 30B 激活) | 128K | 开放权重;多语言(法语、德语、西班牙语等);32k 输出长度 |
| Pixtral 12B | 2024-09 | 12B | 128K | 首个多模态(视觉+文本),Apache 2.0 |
| Mistral Small 3.1 | 2025-03 | 24B Dense | 128K | Apache 2.0,高效推理;对标 Llama 3.1 8B 但性能更强 |
| Mistral Large 3 | 2025-Q3 (传闻) | — | — | 待发布 |
Benchmark Scores
| 基准 | Mixtral 8x7B | Mistral Large 2 | Mistral Small 3.1 | Pixtral 12B |
|---|---|---|---|---|
| MMLU | 70.6% | 84.0% | 82.3% | 75.2% |
| HumanEval | 72.3% | 80.2% | 76.5% | 66.8% |
| MATH | 42.0% | 68.5% | 64.1% | — |
| GPQA Diamond | — | 48.0% | 42.6% | — |
| HellaSwag | 87.8% | 93.0% | 91.4% | — |
| TruthfulQA | 60.8% | 69.8% | 66.2% | — |
API Pricing(截至 2026 年 4 月,通过 La Plateforme)
| 模型 | 输入 ($/1M tokens) | 输出 ($/1M tokens) | 备注 |
|---|---|---|---|
| Mistral Large 2 | $4.00 | $12.00 | 旗舰 |
| Mistral Small 3.1 | $1.00 | $3.00 | 中端 |
| Pixtral 12B | $0.50 | $1.50 | 多模态 |
| Codestral | $1.00 | $3.00 | 代码专用 |
| Mixtral 8x7B | $0.50 | $1.50 | (逐步退役) |
注:Mistral 提供开源模型免费用(自托管),仅商业 API 按量计费
Architecture Notes
- Sliding Window Attention:Mistral 7B 原初即采用滑动窗口注意力机制,固定窗口大小(4K)中实现 32K 的有效上下文——Mistral 是首个在主流模型中采用此技术的团队
- MoE 先驱:Mixtral 8x7B 是 2023 年唯一一个成功的主流开源 MoE 模型——在 Llama 4 和 Qwen3 之前,Mixtral 一直是最易获得的 MoE 开源模型
- 高效基础设施:Mistral 团队以极致工程效率著称——Mixtral 8x7B 仅用约 €2000 万欧元训练
- 双轨策略:开源权重(Apache 2.0)→ 社区采用 → 生态影响力 → 商业 API 转化;为 DeepSeek、Llama 等提供了参考模型
- 欧洲 AI 主权:法国/欧盟数据驻地,符合 GDPR 和数据主权要求——是企业级部署的差异化卖点
- Mistral Large 2 的 128K 上下文 + 32K 输出长度在 2024 年是最长的输出窗口之一
Why It Matters
- Mistral 的双轨策略(开源权重 + 商业 API)在 Llama 的纯开放路线与 DeepSeek 的研究导向之间开辟了第三条道路
- Mixtral 8x7B 是首个成功证明 MoE 架构可以在小参数量下达到 GPT-3.5 级别的开源模型——直接影响了后续所有 MoE 模型的设计方向
- 它是理解"欧洲 AI 主权"叙事的关键入口——欧盟 AI Act 框架下的合规路径
- 与 Llama、Qwen、DeepSeek 并列为四大开源/开放权重模型家族,代表了欧洲的 AI 实力
Relationships
- 相关公司/模型:Llama、Qwen、DeepSeek、OpenAI、Google Gemini & DeepMind
- 相关概念:Mixture of Experts、Fine-tuning、Multimodal Models、Model Inference & Deployment、Transformer Architecture
Open Questions
- 双轨策略能否持续?开源模型会否稀释 API 收入?(Mistral 尚未盈利)
- 在欧洲监管(EU AI Act)框架下,开源权重策略会面临何种约束?
- Mistral 能否在模型规模上持续追赶美国对手(OpenAI/Google/Meta)?其融资规模是否足够?
Sources
- raw/articles/mistral-ai-research-2026-04-26.md
- Mistral AI Official Documentation (docs.mistral.ai)
- Mistral 7B / Mixtral 8x7B / Mistral Large 2 Blog Posts
- Le Chat (Mistral 的产品) - chat.mistral.ai