Skip to content

AI Hallucination

大语言模型生成看似合理但实际虚假或不忠实于源信息的输出。

概述

幻觉(Hallucination)是 LLM 最关键和普遍的问题之一。模型生成流畅、自信、但事实上错误的内容——从错误的引用和日期到完全虚构的"事实"。幻觉是 LLM 在安全关键领域(医疗、法律、金融)部署的最大障碍之一。

幻觉分类

按来源分类

类型描述示例
知识边界幻觉模型回答超出其训练数据范围的问"2027 年的诺贝尔物理学奖得主是..."
记忆失真幻觉模型知识记忆不准确或混淆"Attention Is All You Need 发表于 2018 年"(实际 2017)
忠实性幻觉模型偏离用户提供的上下文"根据您提供的文档,今年的营收是 50 亿"(实际是 30 亿)
逻辑矛盾模型在同一回复中自相矛盾"Python 是静态类型语言...同时 Python 变量无需声明类型"
统计幻觉概率采样产生了事实性错误"13 × 37 = 471"(计算错误)

按表现形式分类

  • 事实性幻觉: 断言不存在的事实,虚构引用、人名、事件
  • 可验证性幻觉: 无法通过可靠来源验证的声明
  • 指令冲突: 模型输出与用户指令不一致
  • 上下文冲突: 输出与已提供的上下文矛盾

成因分析

模型训练角度

  1. 预测误差: 自回归训练中,NLL 损失并不直接惩罚"自信的错误"
  2. 过拟合训练分布: 模型学会产生"平均上正确"的回答,而非确保准确
  3. 压缩与泛化: 压缩数十 TB 数据到几个 GB 的参数中,必然丢失细节
  4. 解码策略: Temperature > 0 引入随机性,采样到低概率 token 链
  5. 长上下文衰减: 注意力机制在处理长序列时丢失早期信息

数据角度

  1. 训练数据噪音: 互联网数据包含大量错误信息
  2. 长尾知识: 低频事实在训练中被低频表示,更容易被"遗忘"
  3. 冲突信息: 同一事实在数据中出现不同版本

检测方法

传统方法

方法原理优缺点
Self-Consistency多次采样,检查答案一致性简单有效,但增加成本
困惑度评分低困惑度不一定正确,高困惑度常指示问题只能检测部分情况
Token 级概率分析生成各 token 的对数概率计算密集,阈值难设
语义熵衡量生成文本语义级别的确定性效果好,实现复杂

AI 辅助检测

  • LLM-as-a-Judge: 用另一个 LLM 评估输出的准确性
  • 检索增强验证: 用 RAG 系统验证声称的每个事实
  • 分层验证: 先检核关键声明,再逐步核查细节

专门检测工具

  • SelfCheckGPT (Manakul et al. 2023): 基于采样一致性
  • Factool (Chern et al. 2023): 细粒度事实核查
  • FAVA (RAG-based): 上下文验证框架

缓解策略

推理阶段

策略适用场景效果
降低 Temperature事实问答++
RAG 检索增强知识密集型任务+++
Self-Consistency 聚合高准确率要求++
Chain-of-Thought推理任务+
结构化输出 (JSON Schema)API 调用++
外部知识验证医疗/法律+++

训练阶段

策略方法效果
偏好对齐 (DPO/RLHF)用"我不知道"替代错误回答++
数据去噪清理训练数据中的错误+
指令微调教会模型识别知识边界+
基于检索的训练训练模型利用检索信息+++

工程实践

Prompt 策略减少幻觉

1. 明确标注身份:"如果你不确定,请说'我不知道'"
2. 要求逐步推理:"让我们一步步分析"
3. 明确约束:"只基于以下文档回答"
4. 提供回退选项:"如果你找不到答案,请说无法确定"
5. 请求引用源:"请引用你回答中使用的原文"

RAG 验证流水线

用户查询 → 检索文档 → 生成回答 → 事实核查 → 最终输出

                               (发现幻觉 → 返回检索结果 | 重新生成 | 拒绝回答)

开放挑战

  • 评估: 缺乏通用幻觉评测基准。现有的如 HaluEval、TruthfulQA 覆盖有限
  • 归因困难: 模型无法可靠报告其知识来源
  • 对抗幻觉: 模型可能产生"真实的幻觉"——包含几层正确的事实包裹的虚假核心
  • 置信度校准: 模型对自己的错误通常过于自信

相关概念

参考来源

  • Ji et al. (2023). "Survey of Hallucination in Natural Language Generation." ACM Computing Surveys.
  • Manakul et al. (2023). "SelfCheckGPT: Zero-Resource Black-Box Hallucination Detection for Generative Large Language Models." EMNLP.
  • Huang et al. (2025). "A Survey on Hallucination in Large Language Models: Principles, Taxonomy, Challenges, and Open Questions." arXiv.
  • OpenAI (2023). "GPT-4 System Card" — 幻觉章节。

AI Knowledge Base — 持续积累