AI Hallucination

大语言模型生成看似合理但实际虚假或不忠实于源信息的输出。

概述

幻觉（Hallucination）是 LLM 最关键和普遍的问题之一。模型生成流畅、自信、但事实上错误的内容——从错误的引用和日期到完全虚构的"事实"。幻觉是 LLM 在安全关键领域（医疗、法律、金融）部署的最大障碍之一。

幻觉分类

按来源分类

类型	描述	示例
知识边界幻觉	模型回答超出其训练数据范围的问	"2027 年的诺贝尔物理学奖得主是..."
记忆失真幻觉	模型知识记忆不准确或混淆	"Attention Is All You Need 发表于 2018 年"（实际 2017）
忠实性幻觉	模型偏离用户提供的上下文	"根据您提供的文档，今年的营收是 50 亿"（实际是 30 亿）
逻辑矛盾	模型在同一回复中自相矛盾	"Python 是静态类型语言...同时 Python 变量无需声明类型"
统计幻觉	概率采样产生了事实性错误	"13 × 37 = 471"（计算错误）

按表现形式分类

事实性幻觉: 断言不存在的事实，虚构引用、人名、事件
可验证性幻觉: 无法通过可靠来源验证的声明
指令冲突: 模型输出与用户指令不一致
上下文冲突: 输出与已提供的上下文矛盾

成因分析

模型训练角度

预测误差: 自回归训练中，NLL 损失并不直接惩罚"自信的错误"
过拟合训练分布: 模型学会产生"平均上正确"的回答，而非确保准确
压缩与泛化: 压缩数十 TB 数据到几个 GB 的参数中，必然丢失细节
解码策略: Temperature > 0 引入随机性，采样到低概率 token 链
长上下文衰减: 注意力机制在处理长序列时丢失早期信息

数据角度

训练数据噪音: 互联网数据包含大量错误信息
长尾知识: 低频事实在训练中被低频表示，更容易被"遗忘"
冲突信息: 同一事实在数据中出现不同版本

检测方法

传统方法

方法	原理	优缺点
Self-Consistency	多次采样，检查答案一致性	简单有效，但增加成本
困惑度评分	低困惑度不一定正确，高困惑度常指示问题	只能检测部分情况
Token 级概率	分析生成各 token 的对数概率	计算密集，阈值难设
语义熵	衡量生成文本语义级别的确定性	效果好，实现复杂

AI 辅助检测

LLM-as-a-Judge: 用另一个 LLM 评估输出的准确性
检索增强验证: 用 RAG 系统验证声称的每个事实
分层验证: 先检核关键声明，再逐步核查细节

专门检测工具

SelfCheckGPT (Manakul et al. 2023): 基于采样一致性
Factool (Chern et al. 2023): 细粒度事实核查
FAVA (RAG-based): 上下文验证框架

缓解策略

推理阶段

策略	适用场景	效果
降低 Temperature	事实问答	++
RAG 检索增强	知识密集型任务	+++
Self-Consistency 聚合	高准确率要求	++
Chain-of-Thought	推理任务	+
结构化输出 (JSON Schema)	API 调用	++
外部知识验证	医疗/法律	+++

训练阶段

策略	方法	效果
偏好对齐 (DPO/RLHF)	用"我不知道"替代错误回答	++
数据去噪	清理训练数据中的错误	+
指令微调	教会模型识别知识边界	+
基于检索的训练	训练模型利用检索信息	+++

工程实践

Prompt 策略减少幻觉

1. 明确标注身份："如果你不确定，请说'我不知道'"
2. 要求逐步推理："让我们一步步分析"
3. 明确约束："只基于以下文档回答"
4. 提供回退选项："如果你找不到答案，请说无法确定"
5. 请求引用源："请引用你回答中使用的原文"

RAG 验证流水线

用户查询 → 检索文档 → 生成回答 → 事实核查 → 最终输出
                                    ↓
                               （发现幻觉 → 返回检索结果 | 重新生成 | 拒绝回答）

开放挑战

评估: 缺乏通用幻觉评测基准。现有的如 HaluEval、TruthfulQA 覆盖有限
归因困难: 模型无法可靠报告其知识来源
对抗幻觉: 模型可能产生"真实的幻觉"——包含几层正确的事实包裹的虚假核心
置信度校准: 模型对自己的错误通常过于自信

参考来源

Ji et al. (2023). "Survey of Hallucination in Natural Language Generation." ACM Computing Surveys.
Manakul et al. (2023). "SelfCheckGPT: Zero-Resource Black-Box Hallucination Detection for Generative Large Language Models." EMNLP.
Huang et al. (2025). "A Survey on Hallucination in Large Language Models: Principles, Taxonomy, Challenges, and Open Questions." arXiv.
OpenAI (2023). "GPT-4 System Card" — 幻觉章节。

AI Hallucination ​

概述 ​

幻觉分类 ​

按来源分类 ​

按表现形式分类 ​

成因分析 ​

模型训练角度 ​

数据角度 ​

检测方法 ​

传统方法 ​

AI 辅助检测 ​

专门检测工具 ​

缓解策略 ​

推理阶段 ​

训练阶段 ​

工程实践 ​

Prompt 策略减少幻觉 ​

RAG 验证流水线 ​

开放挑战 ​

相关概念 ​

参考来源 ​

AI Hallucination

概述

幻觉分类

按来源分类

按表现形式分类

成因分析

模型训练角度

数据角度

检测方法

传统方法

AI 辅助检测

专门检测工具

缓解策略

推理阶段

训练阶段

工程实践

Prompt 策略减少幻觉

RAG 验证流水线

开放挑战

相关概念

参考来源