Appearance
Qwen
Overview
Qwen(通义千问)是阿里云主导的重要大语言模型家族,也是中文语境和开源模型生态中非常关键的节点。它既覆盖开源/开放权重模型,也覆盖面向云服务和产业落地的产品化能力。Qwen 也是最全面地支持多模态(Qwen-VL、Qwen-Audio、Qwen2-VL)的开源模型家族之一,且在多语言能力上有独特优势。
Model Timeline
| 模型 | 发布时间 | 参数规模 | 上下文窗口 | 架构特点 |
|---|---|---|---|---|
| Qwen (v1) | 2023-08 | 1.8B, 7B, 14B, 72B | 8K | 首个系列,中文优化 |
| Qwen1.5 | 2024-02 | 0.5B–72B | 32K | 改进 tokenizer,多语言 |
| Qwen2 | 2024-06 | 0.5B, 1.5B, 7B, 72B | 32K (128K 实验) | Grouped-Query Attention |
| Qwen2.5 | 2024-09 | 0.5B–72B | 128K | 深度改进,代码/数学显著提升 |
| Qwen2-VL | 2024-08 | 2B, 7B, 72B | 128K | 多模态视觉语言模型 |
| Qwen2-Audio | 2024-07 | 7B | 128K | 音频理解 |
| Qwen3 | 2025-04 | 0.5B–235B (MoE) | 128K+ | 首次引入 MoE(Qwen3-235B-A22B) |
| QwQ-32B | 2025-03 | 32B | 128K | 推理模型(DeepSeek-R1 思路) |
Benchmark Scores
| 基准 | Qwen2.5 72B | Qwen3 72B | Qwen3 235B MoE | QwQ-32B |
|---|---|---|---|---|
| MMLU | 85.4% | 90.6% | 91.0% (估) | 88.1% |
| HumanEval | 85.0% | 91.3% | 92.0% (估) | 86.5% |
| MATH | 62.4% | 85.0% | 87.0% (估) | 90.6% |
| GPQA Diamond | 42.6% | 67.1% | 70.0% (估) | 60.3% |
| HellaSwag | 93.1% | 95.9% | 96.5% (估) | 94.0% |
| TruthfulQA | 65.2% | 78.5% | 80.0% (估) | 73.8% |
API Pricing(通过阿里云百炼平台,截至 2026 年 4 月)
| 模型 | 输入 ($/1M tokens) | 输出 ($/1M tokens) | 备注 |
|---|---|---|---|
| Qwen3-235B MoE | $1.50 | $6.00 | 旗舰 MoE 模型 |
| Qwen3-72B | $0.80 | $2.40 | 稠密旗舰 |
| Qwen3-32B | $0.40 | $1.20 | 中端 |
| QwQ-32B | $0.50 | $2.00 | 推理模型 |
| Qwen3-7B | $0.15 | $0.60 | 轻量级 |
| Qwen2-VL-72B | $1.00 (图像额外) | $3.00 | 多模态模型 |
注:阿里云百炼平台面向国内/国际提供 API,价格需以实际页面为准
Architecture Notes
- Qwen3-235B-A22B 是当前 Qwen 家族最强模型,采用 MoE 架构:总参数 235B,每次推理激活 22B(约 9% 激活比)
- Qwen3 的 MoE 路由策略采用了 DeepSeek 风格的细粒度 Expert(更多但更小 expert),而非 Llama 4 的粗粒度 MoE
- Qwen2-VL 采用视觉编码器 (ViT) + Qwen LLM 架构,支持动态分辨率图像输入
- Qwen 系列以强中英文双语能力和多语言支持(日语、韩语、法语、阿拉伯语等)著称
- 全系列采用 Apache 2.0 / Qwen License 开放权重
- Qwen 系列在中文语境下仍然是最全面且性能最强的开源模型家族
Why It Matters
- Qwen 是理解中国 AI 模型生态的重要入口
- 它与 Llama、DeepSeek 的对比,有助于观察不同开源模型家族在许可、能力结构和生态扩张上的差异
- Qwen 的多模态覆盖度(视觉+音频)在开源模型中领先——一个家族覆盖四个模态
- 它也展示了"企业云+开源"的双轨策略如何运作——阿里云通过开源积累生态影响力,通过云服务变现
- 与 Mixture of Experts、AI Agents、Retrieval Augmented Generation、Multimodal Models 等主题紧密相关
Relationships
- 相关模型:Llama、DeepSeek、Mistral AI
- 相关公司:OpenAI、Anthropic、Google Gemini & DeepMind
- 相关概念:Mixture of Experts、AI Agents、Retrieval Augmented Generation、Multimodal Models、Fine-tuning
Open Questions
- Qwen 系列在国际开源模型竞争中的长期定位会如何变化?
- 阿里云的双轨(开源 + 云 API)策略能否持续——开源会否稀释云收入?
- Qwen3 MoE 模型的 Agent 和工具调用能力能否在真实任务中匹敌 DeepSeek 和 Llama?
Sources
- raw/articles/qwen-wikipedia-summary-2026-04-26.md
- raw/articles/qwen3-blog-2026-04-26.md
- Qwen Technical Reports (Qwen2, Qwen2.5, Qwen3)
- Alibaba Cloud Bailian Platform Documentation