Skip to content

Google Gemini & DeepMind

Google DeepMind(2023 年由 DeepMind 与 Google Brain 合并成立)是 Alphabet 旗下统一的 AI 研究机构,Gemini 是其从文本到多模态的核心模型家族。本页覆盖 DeepMind 的研究影响力与 Gemini 模型演进。

Overview

Google DeepMind 是全球最具影响力的 AI 研究机构之一,2023 年 4 月由 DeepMind(2010 年成立)与 Google Brain(2011 年成立)合并而成。DeepMind 的历史贡献包括 AlphaGo、AlphaFold、WaveNet 等里程碑式成果;Google Brain 是 Transformer 架构("Attention Is All You Need")的诞生地。Gemini 系列是其从多模态能力到 Agent 系统的核心模型产品,深度嵌入 Google 的搜索、Workspace、Android 与云服务生态。

Model Timeline

版本发布时间参数规模上下文窗口核心特征
Gemini 1.0 Ultra2023-12未公开32KUltra/Pro/Nano 三种尺寸;MMLU 90.0%;原生多模态(文本+图像+音频+视频+代码)
Gemini 1.5 Pro2024-02未公开(MoE 推测)1M (实验 10M)超长上下文;性能匹配 GPT-4o;强大的工具使用与长文档理解
Gemini 1.5 Flash2024-05未公开1M轻量化版,高吞吐
Gemini 2.0 Flash2024-12未公开1M原生图像/音频输出;Agent 能力;Google Search 集成
Gemini 2.5 Pro2025-03未公开1M (实验 2M)顶尖推理能力;GPQA 85%、MMLU 90.5%;大幅领先前代
Gemini 2.5 Flash2025-05未公开1M轻量化推理版

Benchmark Scores

基准Gemini 1.5 ProGemini 2.0 FlashGemini 2.5 ProGemini 2.5 Flash
MMLU86.4%87.8%90.5%89.0%
HumanEval84.1%89.1%93.6%91.2%
MATH67.7%79.5%91.2%84.7%
GPQA Diamond49.2%56.0%85.0%73.1%
HellaSwag92.5%94.8%96.5%95.1%
TruthfulQA68.5%72.3%81.0%76.4%

API Pricing(截至 2026 年 4 月,通过 Google AI Studio / Vertex AI)

模型输入 ($/1M tokens)输出 ($/1M tokens)免费额度
Gemini 2.5 Pro$1.25–$2.50 (≤128K/>128K)$5.00–$10.00免费层可用
Gemini 2.0 Flash$0.10$0.40免费层可用
Gemini 2.5 Flash$0.15$0.60免费层可用
Gemini 1.5 Pro$1.25–$2.50 (≤128K/>128K)$5.00–$10.00已基本升级为 2.5
Gemini 1.5 Flash$0.075$0.30免费层可用

注:Google AI Studio 对所有模型提供慷慨的免费套餐(约 60 RPM 免费),这是与其他 API 提供商的显著差异

Architecture Notes

  • 原生多模态:Gemini 是唯一一个从头设计支持文本+图像+音频+视频四模态的多模态模型(非拼接式),这与 GPT-4o/Claude 的"文本为主+视觉补充"路线不同
  • 超长上下文:Gemini 1.5/2.0/2.5 均提供 1M token 原生上下文窗口(实验性可达 10M/2M)——是商用模型中最大的
  • Google Search 集成:通过 grounding 功能,Gemini 可以在推理时实时检索 Google Search 结果,解决知识截止问题
  • Agentic AI:Gemini 2.0+ 有原生 Agent 能力(工具调用、函数调用、Code Execution),与 Google Search、Maps、Gmail 等 Google 生态深度绑定
  • DeepMind 在强化学习、游戏 AI、生物学(AlphaFold) 领域的研究积累赋予了 Gemini 独有的科学推理能力

Why It Matters

  • Gemini 是唯一一个原生覆盖文本+图像+音频+视频四种模态的商用模型——与 OpenAI 的 GPT-4o 形成直接竞争
  • 1M token 上下文窗口在长文档、代码库分析、视频理解场景中有独特优势,目前只有 DeepSeek 的 1M 上下文可以匹敌
  • 与 Google Search 的整合(AI Overviews)使其具备实时信息源,不同于纯 API 模型
  • Google 的"硬件(TPU)+ 模型(Gemini)+ 云(GCP)+ 产品(Search/Workspace/Android)"垂直整合是其他竞争对手无法复制的护城河
  • OpenAIAnthropic 形成全球 AI "三强"格局

Relationships

Open Questions

  • Gemini 在开发者生态中的 adoption 能否追上 OpenAI / Anthropic
  • 超长上下文的实际使用场景是否会成为差异化护城河,还是最终被其他模型追平?
  • DeepMind 的学术研究实力与 Google 产品的商业落地之间,能否持续有效协同?

Sources

  • raw/articles/gemini-deepmind-research-2026-04-26.md
  • Google DeepMind Blog (deepmind.google)
  • Gemini Technical Reports (Gemini 1.0, 1.5, 2.0)
  • Google AI for Developers (ai.google.dev)

AI Knowledge Base — 持续积累