Appearance
AI Hallucination
大语言模型生成看似合理但实际虚假或不忠实于源信息的输出。
概述
幻觉(Hallucination)是 LLM 最关键和普遍的问题之一。模型生成流畅、自信、但事实上错误的内容——从错误的引用和日期到完全虚构的"事实"。幻觉是 LLM 在安全关键领域(医疗、法律、金融)部署的最大障碍之一。
幻觉分类
按来源分类
| 类型 | 描述 | 示例 |
|---|---|---|
| 知识边界幻觉 | 模型回答超出其训练数据范围的问 | "2027 年的诺贝尔物理学奖得主是..." |
| 记忆失真幻觉 | 模型知识记忆不准确或混淆 | "Attention Is All You Need 发表于 2018 年"(实际 2017) |
| 忠实性幻觉 | 模型偏离用户提供的上下文 | "根据您提供的文档,今年的营收是 50 亿"(实际是 30 亿) |
| 逻辑矛盾 | 模型在同一回复中自相矛盾 | "Python 是静态类型语言...同时 Python 变量无需声明类型" |
| 统计幻觉 | 概率采样产生了事实性错误 | "13 × 37 = 471"(计算错误) |
按表现形式分类
- 事实性幻觉: 断言不存在的事实,虚构引用、人名、事件
- 可验证性幻觉: 无法通过可靠来源验证的声明
- 指令冲突: 模型输出与用户指令不一致
- 上下文冲突: 输出与已提供的上下文矛盾
成因分析
模型训练角度
- 预测误差: 自回归训练中,NLL 损失并不直接惩罚"自信的错误"
- 过拟合训练分布: 模型学会产生"平均上正确"的回答,而非确保准确
- 压缩与泛化: 压缩数十 TB 数据到几个 GB 的参数中,必然丢失细节
- 解码策略: Temperature > 0 引入随机性,采样到低概率 token 链
- 长上下文衰减: 注意力机制在处理长序列时丢失早期信息
数据角度
- 训练数据噪音: 互联网数据包含大量错误信息
- 长尾知识: 低频事实在训练中被低频表示,更容易被"遗忘"
- 冲突信息: 同一事实在数据中出现不同版本
检测方法
传统方法
| 方法 | 原理 | 优缺点 |
|---|---|---|
| Self-Consistency | 多次采样,检查答案一致性 | 简单有效,但增加成本 |
| 困惑度评分 | 低困惑度不一定正确,高困惑度常指示问题 | 只能检测部分情况 |
| Token 级概率 | 分析生成各 token 的对数概率 | 计算密集,阈值难设 |
| 语义熵 | 衡量生成文本语义级别的确定性 | 效果好,实现复杂 |
AI 辅助检测
- LLM-as-a-Judge: 用另一个 LLM 评估输出的准确性
- 检索增强验证: 用 RAG 系统验证声称的每个事实
- 分层验证: 先检核关键声明,再逐步核查细节
专门检测工具
- SelfCheckGPT (Manakul et al. 2023): 基于采样一致性
- Factool (Chern et al. 2023): 细粒度事实核查
- FAVA (RAG-based): 上下文验证框架
缓解策略
推理阶段
| 策略 | 适用场景 | 效果 |
|---|---|---|
| 降低 Temperature | 事实问答 | ++ |
| RAG 检索增强 | 知识密集型任务 | +++ |
| Self-Consistency 聚合 | 高准确率要求 | ++ |
| Chain-of-Thought | 推理任务 | + |
| 结构化输出 (JSON Schema) | API 调用 | ++ |
| 外部知识验证 | 医疗/法律 | +++ |
训练阶段
| 策略 | 方法 | 效果 |
|---|---|---|
| 偏好对齐 (DPO/RLHF) | 用"我不知道"替代错误回答 | ++ |
| 数据去噪 | 清理训练数据中的错误 | + |
| 指令微调 | 教会模型识别知识边界 | + |
| 基于检索的训练 | 训练模型利用检索信息 | +++ |
工程实践
Prompt 策略减少幻觉
1. 明确标注身份:"如果你不确定,请说'我不知道'"
2. 要求逐步推理:"让我们一步步分析"
3. 明确约束:"只基于以下文档回答"
4. 提供回退选项:"如果你找不到答案,请说无法确定"
5. 请求引用源:"请引用你回答中使用的原文"RAG 验证流水线
用户查询 → 检索文档 → 生成回答 → 事实核查 → 最终输出
↓
(发现幻觉 → 返回检索结果 | 重新生成 | 拒绝回答)开放挑战
- 评估: 缺乏通用幻觉评测基准。现有的如 HaluEval、TruthfulQA 覆盖有限
- 归因困难: 模型无法可靠报告其知识来源
- 对抗幻觉: 模型可能产生"真实的幻觉"——包含几层正确的事实包裹的虚假核心
- 置信度校准: 模型对自己的错误通常过于自信
相关概念
- Retrieval Augmented Generation — RAG 是缓解幻觉的核心方法
- Fine-tuning / DPO & Preference Alignment — 通过对齐减少幻觉
- Chain-of-Thought & Reasoning — 推理过程可能暴露或减少幻觉
- LLM Evaluation — 幻觉评测基准
参考来源
- Ji et al. (2023). "Survey of Hallucination in Natural Language Generation." ACM Computing Surveys.
- Manakul et al. (2023). "SelfCheckGPT: Zero-Resource Black-Box Hallucination Detection for Generative Large Language Models." EMNLP.
- Huang et al. (2025). "A Survey on Hallucination in Large Language Models: Principles, Taxonomy, Challenges, and Open Questions." arXiv.
- OpenAI (2023). "GPT-4 System Card" — 幻觉章节。