Appearance
Google DeepMind
全球最具影响力的 AI 研究机构之一。从 AlphaGo 击败围棋世界冠军,到 AlphaFold 解决 50 年蛋白质折叠难题,再到 Gemini 原生多模态模型的诞生——DeepMind 的历史就是现代 AI 突破史的一部分。
机构概况
| 属性 | 信息 |
|---|---|
| 成立时间 | 2010 年(伦敦),2014 年被 Google 以 ~5 亿美元收购 |
| 合并 | 2023 年 4 月与 Google Brain 合并为 Google DeepMind |
| 创始人 | Demis Hassabis, Shane Legg, Mustafa Suleyman |
| CEO | Demis Hassabis |
| 总部 | 英国伦敦 + 美国加州山景城 |
| 核心领域 | AGI 研究、强化学习、蛋白质预测、多模态 AI、AI 安全 |
| 著名产出 | AlphaGo、AlphaFold、Gemini、Gemma、AlphaProteo |
关键里程碑
| 年份 | 事件 | 影响 |
|---|---|---|
| 2010 | DeepMind 成立 | — |
| 2014 | 被 Google 收购 | 获得大规模计算资源 |
| 2016 | AlphaGo 击败 Lee Sedol | AI 历史上标志性事件 |
| 2017 | AlphaGo Zero 自我博弈学习 | 无需人类知识即可超越人类 |
| 2017 | Transformer 论文(Google Brain) | 现代大语言模型的基础架构诞生 |
| 2018 | AlphaFold 赢得 CASP13 | 蛋白质结构预测突破 |
| 2020 | AlphaFold 2 解决蛋白质折叠问题 | 公认的 AI 科学贡献巅峰之一 |
| 2021 | AlphaFold DB 发布 | 2 亿+ 蛋白质结构开放访问 |
| 2023 | 与 Google Brain 合并 | 统一 Google AI 研究能力 |
| 2023-12 | Gemini 1.0 发布 | 原生多模态(文本/图像/音频/视频/代码) |
| 2024-02 | Gemini 1.5 Pro(1M 上下文) | 超长上下文商用模型 |
| 2024 | Gemma 开源发布 | 小模型开源生态探索 |
| 2024 | AlphaProteo 发布 | AI 设计新型蛋白质结合物 |
| 2025-03 | Gemini 2.5 Pro 发布 | 100 万 token 上下文、顶尖推理、Agentic 能力进化 |
核心研究领域
强化学习与游戏 AI
DeepMind 在强化学习领域的开创性工作塑造了整个学科:
- DQN (2013):深度 Q 学习开创性工作,首次展示深度神经网络在 Atari 游戏上超越人类
- AlphaGo / AlphaGo Zero (2016–2017):蒙特卡洛树搜索 + 深度神经网络,击败围棋世界冠军
- AlphaZero (2017):通用棋类 AI,单一算法掌握围棋、象棋、将棋
- MuZero (2019):无需知道游戏规则的规划算法,标志着模型化强化学习的重大突破
- RT-2 (2023):视觉—语言—动作模型用于机器人操控
科学 AI
DeepMind 在 AI for Science 领域的贡献被认为是 AI 研究最深远的社会影响之一:
- AlphaFold (2018–2021):蛋白质 3D 结构预测,被引用为 AI for Science 的标杆。2024 年 Hassabis 与 Jumper 因此获得诺贝尔化学奖
- AlphaProteo (2024):AI 设计新型蛋白质结合物,助力药物发现
- GNoME (2023):预测 38 万种新材料晶体结构
- GraphCast (2023):10 天天气预报,超越全球最佳数值预报系统
多模态与基础模型 — Gemini
Gemini 是 DeepMind 从文本到多模态的核心模型家族,深度嵌入 Google 生态:
| 版本 | 发布时间 | 参数规模 | 上下文窗口 | 核心特征 |
|---|---|---|---|---|
| Gemini 1.0 Ultra | 2023-12 | 未公开 | 32K | Ultra/Pro/Nano 三种尺寸;MMLU 90.0% |
| Gemini 1.5 Pro | 2024-02 | 未公开(MoE 推测) | 1M (实验 10M) | 超长上下文;性能匹配 GPT-4o |
| Gemini 1.5 Flash | 2024-05 | 未公开 | 1M | 轻量化版,高吞吐 |
| Gemini 2.0 Flash | 2024-12 | 未公开 | 1M | 原生图像/音频输出;Agent 能力 |
| Gemini 2.5 Pro | 2025-03 | 未公开 | 1M (实验 2M) | 顶尖推理;GPQA 85%、MMLU 90.5% |
| Gemini 2.5 Flash | 2025-05 | 未公开 | 1M | 轻量化推理版 |
Gemma 是 DeepMind 的开源小模型系列(2B / 7B / 9B / 27B),为开发者提供可以在本地运行的轻量级选项,采用与 Gemini 相同的研究和技术。
与 Google Brain 的合并效应
2023 年合并后,Google DeepMind 形成了全球最大的 AI 研究机构之一:
| 维度 | Google Brain 贡献 | DeepMind 贡献 |
|---|---|---|
| 基础模型 | Transformer 架构 (2017) | Gemini 系列 |
| 训练 | Pathway / Mesh 训练框架 | AlphaFold / RL 系统 |
| 开源 | TensorFlow, JAX | Gemma |
| 方向 | 产品驱动 | 基础研究驱动 |
Gemini Benchmark 跑分
| 基准 | Gemini 1.5 Pro | Gemini 2.0 Flash | Gemini 2.5 Pro | Gemini 2.5 Flash |
|---|---|---|---|---|
| MMLU | 86.4% | 87.8% | 90.5% | 89.0% |
| HumanEval | 84.1% | 89.1% | 93.6% | 91.2% |
| MATH | 67.7% | 79.5% | 91.2% | 84.7% |
| GPQA Diamond | 49.2% | 56.0% | 85.0% | 73.1% |
| HellaSwag | 92.5% | 94.8% | 96.5% | 95.1% |
| TruthfulQA | 68.5% | 72.3% | 81.0% | 76.4% |
API 定价(截至 2026 年 4 月,Google AI Studio / Vertex AI)
| 模型 | 输入 ($/1M tokens) | 输出 ($/1M tokens) | 免费额度 |
|---|---|---|---|
| Gemini 2.5 Pro | $1.25–$2.50 (≤128K / >128K) | $5.00–$10.00 | 免费层可用 |
| Gemini 2.0 Flash | $0.10 | $0.40 | 免费层可用 |
| Gemini 2.5 Flash | $0.15 | $0.60 | 免费层可用 |
| Gemini 1.5 Pro | $1.25–$2.50 (≤128K / >128K) | $5.00–$10.00 | 已基本升级为 2.5 |
| Gemini 1.5 Flash | $0.075 | $0.30 | 免费层可用 |
Google AI Studio 对所有模型提供慷慨的免费套餐(约 60 RPM),这是与其他 API 提供商的显著差异。
架构特色
- 原生多模态:Gemini 是唯一从头设计支持文本+图像+音频+视频四模态的商用模型(非拼接式),与 GPT-4o / Claude 的"文本为主 + 视觉补充"路线不同
- 超长上下文:Gemini 1.5 / 2.0 / 2.5 均提供 1M token 原生上下文窗口(实验性可达 10M / 2M)——商用模型中最大
- Google Search 集成:通过 grounding 功能,Gemini 在推理时可实时检索 Google Search,解决知识截止问题
- Agentic AI:Gemini 2.0+ 具备原生 Agent 能力(工具调用、函数调用、Code Execution),与 Search、Maps、Gmail 等 Google 生态深度绑定
- 硬件全栈:Google 的 TPU + 模型 + GCP 云端 + 产品(Search / Workspace / Android)垂直整合,形成竞争对手无法复制的护城河
Why It Matters
- 唯一原生覆盖文本+图像+音频+视频四种模态的商用模型家族,与 OpenAI 的 GPT-4o 直接竞争
- 1M token 上下文窗口在长文档、代码库分析、视频理解场景中有独特优势,目前只有 DeepSeek 可匹敌
- 与 Google Search 的整合(AI Overviews)使其具备实时信息源,不同于纯 API 模型
- AlphaFold 等科学 AI 成果代表了 AI 在基础科学领域最深远的应用,获得诺贝尔化学奖
- 与 OpenAI、Anthropic 形成全球 AI "三强"格局
Relationships
- 相关公司:OpenAI、Anthropic、Mistral AI
- 相关概念:Multimodal Models、Transformer Architecture、AI Agents、Model Inference & Deployment、Mixture of Experts、RLHF、Scaling Laws
Open Questions
- Gemini 在开发者生态中的 adoption 能否追上 OpenAI / Anthropic?
- 超长上下文的实际使用场景是否会成为差异化护城河,还是最终被追平?
- DeepMind 的学术研究实力与 Google 产品商业落地之间,能否持续有效协同?
- Hassabis 获诺贝尔奖后,DeepMind 的研究方向是否会进一步向科学 AI 倾斜?
参考来源
raw/articles/gemini-deepmind-research-2026-04-26.md
DeepMind 官方网站 (deepmind.google)
AlphaFold 论文:Jumper et al. (2021). Nature
Gemini 技术报告:Gemini Team, Google DeepMind (2023–2025)
Hassabis et al. (2017). "Neuroscience-Inspired Artificial Intelligence." Neuron
Silver et al. (2016). "Mastering the game of Go with deep neural networks and tree search." Nature
Google AI for Developers (ai.google.dev)
Large Language Model (LLM) — 大语言模型的核心定义、技术原理与发展历程