Google Gemini & DeepMind

Google DeepMind（2023 年由 DeepMind 与 Google Brain 合并成立）是 Alphabet 旗下统一的 AI 研究机构，Gemini 是其从文本到多模态的核心模型家族。本页覆盖 DeepMind 的研究影响力与 Gemini 模型演进。

Overview

Google DeepMind 是全球最具影响力的 AI 研究机构之一，2023 年 4 月由 DeepMind（2010 年成立）与 Google Brain（2011 年成立）合并而成。DeepMind 的历史贡献包括 AlphaGo、AlphaFold、WaveNet 等里程碑式成果；Google Brain 是 Transformer 架构（"Attention Is All You Need"）的诞生地。Gemini 系列是其从多模态能力到 Agent 系统的核心模型产品，深度嵌入 Google 的搜索、Workspace、Android 与云服务生态。

Model Timeline

版本	发布时间	参数规模	上下文窗口	核心特征
Gemini 1.0 Ultra	2023-12	未公开	32K	Ultra/Pro/Nano 三种尺寸；MMLU 90.0%；原生多模态（文本+图像+音频+视频+代码）
Gemini 1.5 Pro	2024-02	未公开（MoE 推测）	1M (实验 10M)	超长上下文；性能匹配 GPT-4o；强大的工具使用与长文档理解
Gemini 1.5 Flash	2024-05	未公开	1M	轻量化版，高吞吐
Gemini 2.0 Flash	2024-12	未公开	1M	原生图像/音频输出；Agent 能力；Google Search 集成
Gemini 2.5 Pro	2025-03	未公开	1M (实验 2M)	顶尖推理能力；GPQA 85%、MMLU 90.5%；大幅领先前代
Gemini 2.5 Flash	2025-05	未公开	1M	轻量化推理版

Benchmark Scores

基准	Gemini 1.5 Pro	Gemini 2.0 Flash	Gemini 2.5 Pro	Gemini 2.5 Flash
MMLU	86.4%	87.8%	90.5%	89.0%
HumanEval	84.1%	89.1%	93.6%	91.2%
MATH	67.7%	79.5%	91.2%	84.7%
GPQA Diamond	49.2%	56.0%	85.0%	73.1%
HellaSwag	92.5%	94.8%	96.5%	95.1%
TruthfulQA	68.5%	72.3%	81.0%	76.4%

API Pricing（截至 2026 年 4 月，通过 Google AI Studio / Vertex AI）

模型	输入 ($/1M tokens)	输出 ($/1M tokens)	免费额度
Gemini 2.5 Pro	$1.25–$2.50 (≤128K/＞128K)	$5.00–$10.00	免费层可用
Gemini 2.0 Flash	$0.10	$0.40	免费层可用
Gemini 2.5 Flash	$0.15	$0.60	免费层可用
Gemini 1.5 Pro	$1.25–$2.50 (≤128K/＞128K)	$5.00–$10.00	已基本升级为 2.5
Gemini 1.5 Flash	$0.075	$0.30	免费层可用

注：Google AI Studio 对所有模型提供慷慨的免费套餐（约 60 RPM 免费），这是与其他 API 提供商的显著差异

Architecture Notes

原生多模态：Gemini 是唯一一个从头设计支持文本+图像+音频+视频四模态的多模态模型（非拼接式），这与 GPT-4o/Claude 的"文本为主+视觉补充"路线不同
超长上下文：Gemini 1.5/2.0/2.5 均提供 1M token 原生上下文窗口（实验性可达 10M/2M）——是商用模型中最大的
Google Search 集成：通过 grounding 功能，Gemini 可以在推理时实时检索 Google Search 结果，解决知识截止问题
Agentic AI：Gemini 2.0+ 有原生 Agent 能力（工具调用、函数调用、Code Execution），与 Google Search、Maps、Gmail 等 Google 生态深度绑定
DeepMind 在强化学习、游戏 AI、生物学（AlphaFold） 领域的研究积累赋予了 Gemini 独有的科学推理能力

Why It Matters

Gemini 是唯一一个原生覆盖文本+图像+音频+视频四种模态的商用模型——与 OpenAI 的 GPT-4o 形成直接竞争
1M token 上下文窗口在长文档、代码库分析、视频理解场景中有独特优势，目前只有 DeepSeek 的 1M 上下文可以匹敌
与 Google Search 的整合（AI Overviews）使其具备实时信息源，不同于纯 API 模型
Google 的"硬件（TPU）+ 模型（Gemini）+ 云（GCP）+ 产品（Search/Workspace/Android）"垂直整合是其他竞争对手无法复制的护城河
与 OpenAI、Anthropic 形成全球 AI "三强"格局

Relationships

相关公司：OpenAI、Anthropic、Mistral AI
相关概念：Multimodal Models、Transformer Architecture、AI Agents、Model Inference & Deployment、Mixture of Experts

Open Questions

Gemini 在开发者生态中的 adoption 能否追上 OpenAI / Anthropic？
超长上下文的实际使用场景是否会成为差异化护城河，还是最终被其他模型追平？
DeepMind 的学术研究实力与 Google 产品的商业落地之间，能否持续有效协同？

Sources

raw/articles/gemini-deepmind-research-2026-04-26.md
Google DeepMind Blog (deepmind.google)
Gemini Technical Reports (Gemini 1.0, 1.5, 2.0)
Google AI for Developers (ai.google.dev)

Google Gemini & DeepMind ​

Overview ​

Model Timeline ​

Benchmark Scores ​

API Pricing（截至 2026 年 4 月，通过 Google AI Studio / Vertex AI） ​

Architecture Notes ​

Why It Matters ​

Relationships ​

Open Questions ​

Sources ​