Skip to content

Context Window

Context Window(上下文窗口)是大语言模型单次推理时能处理的最大输入长度。从早期的 2K 到如今的 1M+ token,上下文长度的扩展是 LLM 发展的核心维度之一。本页涵盖上下文窗口的技术限制、扩展方法和长上下文带来的新能力。

核心概念

什么是上下文窗口

模型能"看到"的输入范围:

输入: [系统提示] + [历史对话] + [当前问题] + [检索文档]

                  总长度 ≤ Context Window

关键区别:

  • 训练上下文: 模型训练时见过的最大长度
  • 推理上下文: 模型实际能处理的长度(可能通过技术扩展)

上下文长度的演进

时间模型上下文长度里程碑
2020GPT-32K早期标准
2022GPT-3.54K主流应用
2023GPT-48K / 32K长文档处理
2023Claude 2100K首次突破 100K
2023GPT-4 Turbo128K接近一本书
2024Gemini 1.5 Pro1M百万 token 时代
2024Kimi200K中文长上下文标杆
2024Claude 3200K企业级长上下文

技术挑战

计算复杂度

Self-Attention: O(n² · d)

n = 序列长度, d = 模型维度

上下文增加 10x → 计算量增加 100x

内存消耗

组件2K8K32K128K
Attention 矩阵16MB256MB4GB64GB
KV Cache (70B)2GB8GB32GB128GB

注意力稀释

问题: 序列越长,每个 token 分配到的注意力越少

序列长度 2K: 每个 token 平均注意力 = 1/2000
序列长度 128K: 每个 token 平均注意力 = 1/128000

结果: 长上下文中开头的信息可能被"忘记"

扩展技术

1. 位置编码外推

训练时用短上下文,推理时扩展到更长:

方法原理效果
NTK-aware插值位置编码2-4x
YaRN温度缩放 + 频率拆分8x+
Positional Interpolation缩小位置索引2-8x

2. 稀疏注意力

只计算部分注意力对:

方法模式复杂度
Sliding Window只关注邻居O(n·w)
Dilated Attention间隔采样O(n·log n)
Local + Global局部 + 全局注意力O(n·w + n·g)
Ring Attention分布式计算O(n²/d)

3. 上下文压缩

用压缩表示替代原始 token:

原始: [token1, token2, ..., token_N]  N 个 token
压缩: [compressed_embedding]  1 个向量

方法:
- 汇总 (summarization)
- 向量压缩 (memory tokens)
- 流式处理 (streaming)

4. 混合架构

架构特点代表
Transformer + RNN局部用 Attention,全局用 RNNRWKV
State Space Model线性复杂度Mamba
RetNet固定复杂度实验性

长上下文的新能力

1. 长文档理解

  • 法律文件: 分析整份合同
  • 科学论文: 理解多篇相关研究
  • 小说: 记住整本书的情节

2. 多轮对话

  • 保持更长的对话历史
  • 减少信息遗失

3. 多模态

  • 视频理解(每秒 1-2 帧,分钟级视频 = 数万 token)
  • 图像集分析

4. RAG 替代

长上下文 vs RAG:

方案优点缺点
长上下文简单、无检索成本成本高、慢
RAG快、可扩展需要检索系统

评估方法

长上下文评测

任务测试内容难度
Needle in a Haystack在长文末中查找特定信息
多跳推理需要结合多处信息
时序推理按时间顺序组织信息
多文档 QA综合多个文档回答很高

实际表现

重要发现: 能处理 ≠ 能理解

  • 大多数模型在 >32K 时表现下降
  • "Lost in the Middle" 效应: 中间信息被忽略
  • 需要专门的长上下文训练

Synthesis

上下文窗口是 LLM 能力的核心维度之一。从 2K 到 1M+ 的进化不仅仅是数字的增长,更是应用范围的质变——从短文本处理到整本书理解、从单轮对话到长期协作。然而,长上下文也带来了显著的计算和内存挑战,这促使了稀疏注意力、状态空间模型等新架构的研究。实际应用中,长上下文与 RAG 通常是互补方案而非替代关系。

Sources

  • "Lost in the Middle: How Language Models Use Long Contexts" (Liu et al., 2023)

  • "Ring Attention with Blockwise Transformers" (Liu et al., 2023)

  • "Mamba: Linear-Time Sequence Modeling with Selective State Spaces" (Gu & Dao, 2023)

  • Gemini 1.5 Pro 技术报告

  • Large Language Model (LLM) — 大语言模型的核心定义、技术原理与发展历程

AI Knowledge Base — 持续积累