Skip to content

RAG vs Long Context

当需要让 LLM 使用外部知识时,有两种主流方案:RAG(检索+生成)和长上下文(直接将大量文本塞入提示词)。DeepSeek-V4 的 1M token 上下文窗口等技术进步,正在重新挑战 RAG 的默认首选地位。本页从架构原理、成本、延迟、准确性、可扩展性等维度展开对比。

Comparison Overview

维度RAGLong Context
核心理念先检索相关片段,再生成回复直接把全部文本塞入上下文窗口
架构复杂度高(检索 → 重排 → 生成 → 引用验证)低(仅需模型本身)
基础设施成本需维护向量数据库 + embedding 模型 + 检索管道仅需模型推理(但上下文窗口大)
推理成本(短文本,<64K)相近相近
推理成本(长文本,100K+)低(仅处理检索到的片段)高(全序列 attention)
推理成本(1M token)低(检索 Top-K 片段)高但优化中(DeepSeek V4 仅需 2% KV cache)
延迟低(仅检索少量片段)高(全序列 prefill)
事实准确性高(显式引用、可追溯)中等("大海捞针"问题随长度下降)
知识覆盖任意规模(亿级文档)受限于窗口(当前最高 1M–2M tokens)
知识更新即时(更新向量库即可)需要重新构建提示词
可追溯性/可审计强(每个回答可追溯到具体片段+来源)弱(模型内部消化,不自动提供引用)
应用复杂度高(需要维护检索管道各环节质量)低(只需准备文本并拼入 prompt)
适合知识库规模任意规模< 百万 token 级别

Key Differences

架构与复杂度

RAG 是一个多步骤流水线:文档分割 → 向量化 → 检索 → 重排序 → 上下文组装 → 生成 →(可选)引用验证。每个环节都可能成为质量瓶颈。

长上下文模型只需要一个步骤:将文本拼入提示词。但长上下文的"简单"是表面的——模型需要在海量序列中准确关注到相关信息,attention 退化、"lost in the middle" 等现象是真实挑战。

成本折线

  • 短文本场景(单段/几段文档,<64K tokens):RAG 和长上下文成本大致相当。RAG 多了向量检索/重排的固定开销但输入 token 少;长上下文直接输入多但架构简单。
  • 中等文本(64K–256K):RAG 优势开始显现,因为它只处理最相关的片段。长上下文需要完整的 self-attention 计算。
  • 超长文本(256K–1M):传统上 RAG 优势巨大。但 DeepSeek V4 的 CSA(Compressed Sparse Attention)架构大幅降低了长上下文的计算开销——在 1M token 下仅需传统 GQA 架构 2% 的 KV cache,每条 token 的 FLOPs 降低到 V3.2 的 27%(Pro)或 10%(Flash)。这让长上下文在超长场景下重新具备经济竞争力。

准确性

RAG 的核心优势之一是显式引用:每一个生成结果可以追溯到具体的检索片段,这在合规敏感场景(医疗、法律、金融)中是硬需求。

长上下文模型在信息密度低、核心信息分散的长文档中容易出现"注意力稀释"问题。即使有 1M 上下文窗口,也不意味着模型能有效利用全部 1M token 的信息。

知识规模上限

RAG 理论上没有上限——向量数据库可以扩展到数十亿文档。增加文档只需要重新分割、向量化、入库,不需要重新训练或修改模型。

长上下文的上限是模型上下文窗口的物理大小。当前实际部署中,主流在 128K–200K 范围,1M 是前沿但尚未到所有场景的默认选项。

Synthesis

场景更优方案理由
企业知识库(百万级文档)RAG规模上限无限制、可追溯、可增量更新
合规/审计场景RAG显式引用是硬需求
单篇长文档理解(如论文、法律合同)Long Context快速投入、无需检索管道
Agent 持续对话 + 上下文累积Long ContextDeepSeek V4 等模型为 Agent 场景优化长上下文
混合场景RAG + Long Context检索核心片段 + 附上全文上下文

核心结论:RAG vs Long Context 不是非此即彼的选择。 实际情况往往是使用 RAG 检索最相关片段,同时将检索结果附上完整上下文一并交给模型处理。DeepSeek V4 的低成本长上下文让这种"RAG + 长上下文"融合方案变得更经济,也更具实操性。

Sources

  • raw/papers/retrieval-augmented-generation-2005.11401-2026-04-26.md
  • raw/articles/rag-wikipedia-summary-2026-04-26.md
  • raw/articles/deepseek-v4-hf-blog-2026-04-26.md

AI Knowledge Base — 持续积累