In-Context Learning

In-Context Learning（上下文学习/情境学习）是大语言模型最引人注目的能力之一：模型仅通过提示中的几个示例就能学会新任务，无需更新任何参数。这一能力最早在 GPT-3 论文中被系统描述，已成为现代 LLM 应用的核心范式。

核心概念

什么是 In-Context Learning

传统机器学习: 训练数据 → 更新参数 → 模型
In-Context Learning: 示例 → 上下文 → 推理

关键区别: 不更新任何模型参数！

示例形式

Zero-shot

任务: 将下面的英文翻译成中文
输入: "The cat sat on the mat."
输出: "猫坐在垫子上。"

Few-shot

任务: 将下面的英文翻译成中文

示例 1:
输入: "Hello, world!"
输出: "你好，世界！"

示例 2:
输入: "I love programming."
输出: "我爱编程。"

现在:
输入: "The cat sat on the mat."
输出: "猫坐在垫子上。"

能力层次

类型	示例数量	能力	难度
Zero-shot	0	理解任务描述	低
One-shot	1	从单个示例推断	中
Few-shot	2-10	从多个示例学习模式	中
Many-shot	10-100+	深度学习复杂模式	高

机制解释

主流理论

1. 隐式元学习 (Implicit Meta-learning)

观点: 预训练过程中，模型学会了"学习的能力"

预训练数据包含无数任务和模式
  ↓
模型内部形成了一个通用的学习算法
  ↓
遇到新任务时，通过示例触发这个学习算法

2. 湿线性求近 (Linear Probe)

观点: ICL 相当于在模型的最后一层做线性回归

示例提供了特征和标签
模型的前层提取特征
最后一层做线性映射

3. 函数近似 (Function Approximation)

观点: Transformer 在近似一个元学习算法

示例 = 训练数据
推理 = 预测
Transformer 学习了如何从示例中提取规律并应用

影响因素

示例质量

因素	影响	建议
示例相关性	相关示例 > 不相关示例	选择与目标任务相似的示例
示例多样性	多样性提升泛化	覆盖不同情境
示例顺序	最后的示例影响最大	将最重要/最相似的示例放在后面
标签分布	均衡的标签更好	避免偏向某个类别

示例格式

好的示例:
任务描述: 清晰明确
输入: 具体、代表性
输出: 正确、一致的格式
分隔符: 明确区分示例

坏的示例:
任务描述: 模糊
输入: 不具代表性
输出: 格式不一致

实际应用

提示工程 (Prompt Engineering)

ICL 是提示工程的核心基础：

系统提示 + 任务描述 + 示例 + 用户输入
        ↓
           LLM 推理
        ↓
           输出

提示调优 (Prompt Tuning)

学习最优的上下文示例：

传统方法: 人工设计示例
自动方法: 优化示例选择和排序

上下文压缩 (Context Compression)

有限上下文窗口中放入更多示例：

原始: [example1, example2, example3, ...] → 可能超长
压缩: [compressed_example] → 更短但保留信息

局限性

1. 上下文窗口限制

示例越多 → 占用越多上下文 → 可能超出窗口

平衡: 示例数量 vs 任务复杂度

2. 敏感性

示例的微小变化可能导致显著不同的结果
对示例的选择和排序高度敏感

3. 复杂任务限制

对于需要深度推理的任务效果有限
不能替代真正的训练

Synthesis

In-Context Learning 是大语言模型最神奇的能力之一：它让模型在不更新任何参数的情况下学习新任务。这一能力彻底改变了 AI 应用的开发范式——从"训练模型"变为"设计提示"。然而，ICL 也有其局限性：它对示例质量高度敏感，受限于上下文窗口，对复杂任务的能力有限。理解 ICL 的机制和局限，是高效使用 LLM 的关键。

Prompt Engineering — 提示工程
In-Context Learning — Few-shot 提示技巧
Chain-of-Thought & Reasoning — 思维链推理
Context Window — 上下文窗口
Fine-tuning — 微调

Sources

"Language Models are Few-Shot Learners" (Brown et al., 2020) - GPT-3 论文
"What Can Transformers Learn In-Context?" (Xie et al., 2021)
"An Explanation of In-context Learning as Implicit Bayesian Inference" (Xie et al., 2021)
"Rethinking the Role of Demonstrations" (Min et al., 2022)
Large Language Model (LLM) — 大语言模型的核心定义、技术原理与发展历程

In-Context Learning ​

核心概念 ​

什么是 In-Context Learning ​

示例形式 ​

Zero-shot ​

Few-shot ​

能力层次 ​

机制解释 ​

主流理论 ​

1. 隐式元学习 (Implicit Meta-learning) ​

2. 湿线性求近 (Linear Probe) ​

3. 函数近似 (Function Approximation) ​

影响因素 ​

示例质量 ​

示例格式 ​

实际应用 ​

提示工程 (Prompt Engineering) ​

提示调优 (Prompt Tuning) ​

上下文压缩 (Context Compression) ​

局限性 ​

1. 上下文窗口限制 ​

2. 敏感性 ​

3. 复杂任务限制 ​

Synthesis ​

Related Pages ​

Sources ​