Skip to content

In-Context Learning

In-Context Learning(上下文学习/情境学习)是大语言模型最引人注目的能力之一:模型仅通过提示中的几个示例就能学会新任务,无需更新任何参数。这一能力最早在 GPT-3 论文中被系统描述,已成为现代 LLM 应用的核心范式。

核心概念

什么是 In-Context Learning

传统机器学习: 训练数据 → 更新参数 → 模型
In-Context Learning: 示例 → 上下文 → 推理

关键区别: 不更新任何模型参数!

示例形式

Zero-shot

任务: 将下面的英文翻译成中文
输入: "The cat sat on the mat."
输出: "猫坐在垫子上。"

Few-shot

任务: 将下面的英文翻译成中文

示例 1:
输入: "Hello, world!"
输出: "你好,世界!"

示例 2:
输入: "I love programming."
输出: "我爱编程。"

现在:
输入: "The cat sat on the mat."
输出: "猫坐在垫子上。"

能力层次

类型示例数量能力难度
Zero-shot0理解任务描述
One-shot1从单个示例推断
Few-shot2-10从多个示例学习模式
Many-shot10-100+深度学习复杂模式

机制解释

主流理论

1. 隐式元学习 (Implicit Meta-learning)

观点: 预训练过程中,模型学会了"学习的能力"

预训练数据包含无数任务和模式

模型内部形成了一个通用的学习算法

遇到新任务时,通过示例触发这个学习算法

2. 湿线性求近 (Linear Probe)

观点: ICL 相当于在模型的最后一层做线性回归

示例提供了特征和标签
模型的前层提取特征
最后一层做线性映射

3. 函数近似 (Function Approximation)

观点: Transformer 在近似一个元学习算法

示例 = 训练数据
推理 = 预测
Transformer 学习了如何从示例中提取规律并应用

影响因素

示例质量

因素影响建议
示例相关性相关示例 > 不相关示例选择与目标任务相似的示例
示例多样性多样性提升泛化覆盖不同情境
示例顺序最后的示例影响最大将最重要/最相似的示例放在后面
标签分布均衡的标签更好避免偏向某个类别

示例格式

好的示例:
任务描述: 清晰明确
输入: 具体、代表性
输出: 正确、一致的格式
分隔符: 明确区分示例

坏的示例:
任务描述: 模糊
输入: 不具代表性
输出: 格式不一致

实际应用

提示工程 (Prompt Engineering)

ICL 是提示工程的核心基础:

系统提示 + 任务描述 + 示例 + 用户输入

           LLM 推理

           输出

提示调优 (Prompt Tuning)

学习最优的上下文示例:

传统方法: 人工设计示例
自动方法: 优化示例选择和排序

上下文压缩 (Context Compression)

有限上下文窗口中放入更多示例:

原始: [example1, example2, example3, ...] → 可能超长
压缩: [compressed_example] → 更短但保留信息

局限性

1. 上下文窗口限制

示例越多 → 占用越多上下文 → 可能超出窗口

平衡: 示例数量 vs 任务复杂度

2. 敏感性

  • 示例的微小变化可能导致显著不同的结果
  • 对示例的选择和排序高度敏感

3. 复杂任务限制

  • 对于需要深度推理的任务效果有限
  • 不能替代真正的训练

Synthesis

In-Context Learning 是大语言模型最神奇的能力之一:它让模型在不更新任何参数的情况下学习新任务。这一能力彻底改变了 AI 应用的开发范式——从"训练模型"变为"设计提示"。然而,ICL 也有其局限性:它对示例质量高度敏感,受限于上下文窗口,对复杂任务的能力有限。理解 ICL 的机制和局限,是高效使用 LLM 的关键。

Sources

  • "Language Models are Few-Shot Learners" (Brown et al., 2020) - GPT-3 论文

  • "What Can Transformers Learn In-Context?" (Xie et al., 2021)

  • "An Explanation of In-context Learning as Implicit Bayesian Inference" (Xie et al., 2021)

  • "Rethinking the Role of Demonstrations" (Min et al., 2022)

  • Large Language Model (LLM) — 大语言模型的核心定义、技术原理与发展历程

AI Knowledge Base — 持续积累