Appearance
In-Context Learning
In-Context Learning(上下文学习/情境学习)是大语言模型最引人注目的能力之一:模型仅通过提示中的几个示例就能学会新任务,无需更新任何参数。这一能力最早在 GPT-3 论文中被系统描述,已成为现代 LLM 应用的核心范式。
核心概念
什么是 In-Context Learning
传统机器学习: 训练数据 → 更新参数 → 模型
In-Context Learning: 示例 → 上下文 → 推理
关键区别: 不更新任何模型参数!示例形式
Zero-shot
任务: 将下面的英文翻译成中文
输入: "The cat sat on the mat."
输出: "猫坐在垫子上。"Few-shot
任务: 将下面的英文翻译成中文
示例 1:
输入: "Hello, world!"
输出: "你好,世界!"
示例 2:
输入: "I love programming."
输出: "我爱编程。"
现在:
输入: "The cat sat on the mat."
输出: "猫坐在垫子上。"能力层次
| 类型 | 示例数量 | 能力 | 难度 |
|---|---|---|---|
| Zero-shot | 0 | 理解任务描述 | 低 |
| One-shot | 1 | 从单个示例推断 | 中 |
| Few-shot | 2-10 | 从多个示例学习模式 | 中 |
| Many-shot | 10-100+ | 深度学习复杂模式 | 高 |
机制解释
主流理论
1. 隐式元学习 (Implicit Meta-learning)
观点: 预训练过程中,模型学会了"学习的能力"
预训练数据包含无数任务和模式
↓
模型内部形成了一个通用的学习算法
↓
遇到新任务时,通过示例触发这个学习算法2. 湿线性求近 (Linear Probe)
观点: ICL 相当于在模型的最后一层做线性回归
示例提供了特征和标签
模型的前层提取特征
最后一层做线性映射3. 函数近似 (Function Approximation)
观点: Transformer 在近似一个元学习算法
示例 = 训练数据
推理 = 预测
Transformer 学习了如何从示例中提取规律并应用影响因素
示例质量
| 因素 | 影响 | 建议 |
|---|---|---|
| 示例相关性 | 相关示例 > 不相关示例 | 选择与目标任务相似的示例 |
| 示例多样性 | 多样性提升泛化 | 覆盖不同情境 |
| 示例顺序 | 最后的示例影响最大 | 将最重要/最相似的示例放在后面 |
| 标签分布 | 均衡的标签更好 | 避免偏向某个类别 |
示例格式
好的示例:
任务描述: 清晰明确
输入: 具体、代表性
输出: 正确、一致的格式
分隔符: 明确区分示例
坏的示例:
任务描述: 模糊
输入: 不具代表性
输出: 格式不一致实际应用
提示工程 (Prompt Engineering)
ICL 是提示工程的核心基础:
系统提示 + 任务描述 + 示例 + 用户输入
↓
LLM 推理
↓
输出提示调优 (Prompt Tuning)
学习最优的上下文示例:
传统方法: 人工设计示例
自动方法: 优化示例选择和排序上下文压缩 (Context Compression)
有限上下文窗口中放入更多示例:
原始: [example1, example2, example3, ...] → 可能超长
压缩: [compressed_example] → 更短但保留信息局限性
1. 上下文窗口限制
示例越多 → 占用越多上下文 → 可能超出窗口
平衡: 示例数量 vs 任务复杂度2. 敏感性
- 示例的微小变化可能导致显著不同的结果
- 对示例的选择和排序高度敏感
3. 复杂任务限制
- 对于需要深度推理的任务效果有限
- 不能替代真正的训练
Synthesis
In-Context Learning 是大语言模型最神奇的能力之一:它让模型在不更新任何参数的情况下学习新任务。这一能力彻底改变了 AI 应用的开发范式——从"训练模型"变为"设计提示"。然而,ICL 也有其局限性:它对示例质量高度敏感,受限于上下文窗口,对复杂任务的能力有限。理解 ICL 的机制和局限,是高效使用 LLM 的关键。
Related Pages
- Prompt Engineering — 提示工程
- In-Context Learning — Few-shot 提示技巧
- Chain-of-Thought & Reasoning — 思维链推理
- Context Window — 上下文窗口
- Fine-tuning — 微调
Sources
"Language Models are Few-Shot Learners" (Brown et al., 2020) - GPT-3 论文
"What Can Transformers Learn In-Context?" (Xie et al., 2021)
"An Explanation of In-context Learning as Implicit Bayesian Inference" (Xie et al., 2021)
"Rethinking the Role of Demonstrations" (Min et al., 2022)
Large Language Model (LLM) — 大语言模型的核心定义、技术原理与发展历程