Appearance
Google Gemini & DeepMind
Google DeepMind(2023 年由 DeepMind 与 Google Brain 合并成立)是 Alphabet 旗下统一的 AI 研究机构,Gemini 是其从文本到多模态的核心模型家族。本页覆盖 DeepMind 的研究影响力与 Gemini 模型演进。
Overview
Google DeepMind 是全球最具影响力的 AI 研究机构之一,2023 年 4 月由 DeepMind(2010 年成立)与 Google Brain(2011 年成立)合并而成。DeepMind 的历史贡献包括 AlphaGo、AlphaFold、WaveNet 等里程碑式成果;Google Brain 是 Transformer 架构("Attention Is All You Need")的诞生地。Gemini 系列是其从多模态能力到 Agent 系统的核心模型产品,深度嵌入 Google 的搜索、Workspace、Android 与云服务生态。
Model Timeline
| 版本 | 发布时间 | 参数规模 | 上下文窗口 | 核心特征 |
|---|---|---|---|---|
| Gemini 1.0 Ultra | 2023-12 | 未公开 | 32K | Ultra/Pro/Nano 三种尺寸;MMLU 90.0%;原生多模态(文本+图像+音频+视频+代码) |
| Gemini 1.5 Pro | 2024-02 | 未公开(MoE 推测) | 1M (实验 10M) | 超长上下文;性能匹配 GPT-4o;强大的工具使用与长文档理解 |
| Gemini 1.5 Flash | 2024-05 | 未公开 | 1M | 轻量化版,高吞吐 |
| Gemini 2.0 Flash | 2024-12 | 未公开 | 1M | 原生图像/音频输出;Agent 能力;Google Search 集成 |
| Gemini 2.5 Pro | 2025-03 | 未公开 | 1M (实验 2M) | 顶尖推理能力;GPQA 85%、MMLU 90.5%;大幅领先前代 |
| Gemini 2.5 Flash | 2025-05 | 未公开 | 1M | 轻量化推理版 |
Benchmark Scores
| 基准 | Gemini 1.5 Pro | Gemini 2.0 Flash | Gemini 2.5 Pro | Gemini 2.5 Flash |
|---|---|---|---|---|
| MMLU | 86.4% | 87.8% | 90.5% | 89.0% |
| HumanEval | 84.1% | 89.1% | 93.6% | 91.2% |
| MATH | 67.7% | 79.5% | 91.2% | 84.7% |
| GPQA Diamond | 49.2% | 56.0% | 85.0% | 73.1% |
| HellaSwag | 92.5% | 94.8% | 96.5% | 95.1% |
| TruthfulQA | 68.5% | 72.3% | 81.0% | 76.4% |
API Pricing(截至 2026 年 4 月,通过 Google AI Studio / Vertex AI)
| 模型 | 输入 ($/1M tokens) | 输出 ($/1M tokens) | 免费额度 |
|---|---|---|---|
| Gemini 2.5 Pro | $1.25–$2.50 (≤128K/>128K) | $5.00–$10.00 | 免费层可用 |
| Gemini 2.0 Flash | $0.10 | $0.40 | 免费层可用 |
| Gemini 2.5 Flash | $0.15 | $0.60 | 免费层可用 |
| Gemini 1.5 Pro | $1.25–$2.50 (≤128K/>128K) | $5.00–$10.00 | 已基本升级为 2.5 |
| Gemini 1.5 Flash | $0.075 | $0.30 | 免费层可用 |
注:Google AI Studio 对所有模型提供慷慨的免费套餐(约 60 RPM 免费),这是与其他 API 提供商的显著差异
Architecture Notes
- 原生多模态:Gemini 是唯一一个从头设计支持文本+图像+音频+视频四模态的多模态模型(非拼接式),这与 GPT-4o/Claude 的"文本为主+视觉补充"路线不同
- 超长上下文:Gemini 1.5/2.0/2.5 均提供 1M token 原生上下文窗口(实验性可达 10M/2M)——是商用模型中最大的
- Google Search 集成:通过 grounding 功能,Gemini 可以在推理时实时检索 Google Search 结果,解决知识截止问题
- Agentic AI:Gemini 2.0+ 有原生 Agent 能力(工具调用、函数调用、Code Execution),与 Google Search、Maps、Gmail 等 Google 生态深度绑定
- DeepMind 在强化学习、游戏 AI、生物学(AlphaFold) 领域的研究积累赋予了 Gemini 独有的科学推理能力
Why It Matters
- Gemini 是唯一一个原生覆盖文本+图像+音频+视频四种模态的商用模型——与 OpenAI 的 GPT-4o 形成直接竞争
- 1M token 上下文窗口在长文档、代码库分析、视频理解场景中有独特优势,目前只有 DeepSeek 的 1M 上下文可以匹敌
- 与 Google Search 的整合(AI Overviews)使其具备实时信息源,不同于纯 API 模型
- Google 的"硬件(TPU)+ 模型(Gemini)+ 云(GCP)+ 产品(Search/Workspace/Android)"垂直整合是其他竞争对手无法复制的护城河
- 与 OpenAI、Anthropic 形成全球 AI "三强"格局
Relationships
- 相关公司:OpenAI、Anthropic、Mistral AI
- 相关概念:Multimodal Models、Transformer Architecture、AI Agents、Model Inference & Deployment、Mixture of Experts
Open Questions
- Gemini 在开发者生态中的 adoption 能否追上 OpenAI / Anthropic?
- 超长上下文的实际使用场景是否会成为差异化护城河,还是最终被其他模型追平?
- DeepMind 的学术研究实力与 Google 产品的商业落地之间,能否持续有效协同?
Sources
- raw/articles/gemini-deepmind-research-2026-04-26.md
- Google DeepMind Blog (deepmind.google)
- Gemini Technical Reports (Gemini 1.0, 1.5, 2.0)
- Google AI for Developers (ai.google.dev)