Skip to content

大语言模型 (Large Language Model, LLM)

基于深度学习的大规模神经网络,通过在海量文本数据上进行自监督预训练,获得理解、生成和推理自然语言的能力,并通过后续对齐技术适配人类需求。

核心定义

大语言模型 (LLM) 是一类参数规模巨大(通常数十亿至数千亿参数)的神经网络模型,以 Transformer 架构为基础,通过在海量无标注文本上进行自监督学习(通常是「预测下一个 Token」任务)来习得语言的统计规律和语义表示。经过预训练后,LLM 可以通过少量示例(In-Context Learning)或进一步微调来执行各类语言任务,无需针对每个任务重新训练。

LLM 的「大」体现在三个维度:

维度说明典型范围
参数规模可学习的权重数量1B ~ 1T+
训练数据预训练语料规模数百 GB ~ 数十 TB
计算量训练所需 FLOPs10²¹ ~ 10²⁵

技术原理

1. Transformer 架构基础

现代 LLM 几乎全部采用 Transformer Architecture,其核心是 Attention Mechanism 机制,使模型能够捕捉序列中任意位置之间的依赖关系。关键组件包括:

  • 自注意力 (Self-Attention):计算序列中每个 Token 与其他所有 Token 的相关性权重
  • 前馈网络 (FFN):对每个位置的表示进行非线性变换
  • 层归一化 & 残差连接:稳定深层网络的训练
  • Position Encoding:为模型提供序列顺序信息

2. 预训练 (Pre-training)

预训练是 LLM 能力的来源。模型在大量文本语料上进行自监督学习,典型目标包括:

  • 因果语言建模 (Causal LM):预测下一个 Token,用于 GPT 类模型
  • 掩码语言建模 (Masked LM):预测被掩码的 Token,用于 BERT 类模型
  • 前缀语言建模 (Prefix LM):结合以上两者,用于 T5 类模型

预训练数据通常包括网页文本、书籍、代码、学术论文等,经过质量过滤和去重处理。

3. 对齐 (Alignment)

预训练后的模型需要与人类意图和价值观对齐,主要技术包括:

  • RLHF:通过人类偏好反馈训练奖励模型,再用强化学习优化策略
  • DPO & Preference Alignment:直接偏好优化,无需显式奖励模型
  • Constitutional AI / RLAIF:利用 AI 自身判断进行对齐,减少对人类标注的依赖
  • 指令微调 (Instruction Tuning):在指令-响应对上监督微调,使模型学会遵循指令

4. Scaling Laws

OpenAI 等团队的研究表明,LLM 的测试损失与模型参数量、训练数据量、计算量之间存在可预测的幂律关系 (Kaplan et al., 2020)。这意味着:

  • 在合理范围内,更大规模的模型 + 更多数据 + 更多计算 = 更好的性能
  • 这种可预测性使得研究者可以在小模型上实验,再外推到大模型的预期表现
  • DeepSeek 等团队进一步发现,数据质量和训练效率的提升可以打破传统 Scaling Laws 的限制

5. 涌现能力 (Emergent Abilities)

当模型规模超过某个阈值后,会突然表现出小模型不具备的能力,包括:

  • In-Context Learning:通过上下文示例学习新任务,无需参数更新
  • Chain-of-Thought & Reasoning:逐步推理解决复杂问题
  • 指令遵循 (Instruction Following):理解和执行自然语言指令
  • 多步推理与规划:分解复杂任务并执行多步操作

发展历程

时间里程碑意义
2017Transformer 架构提出 (Vaswani et al.)奠定了现代 LLM 的基础
2018BERT, GPT-1 发布预训练 + 微调范式确立
2019GPT-2 发布 (1.5B)展示大规模无监督预训练的潜力
2020GPT-3 发布 (175B)涌现 In-Context Learning,开启 LLM 时代
2020Scaling Laws 论文发表为大模型发展提供理论指导
2022ChatGPT / InstructGPT 发布RLHF 对齐技术成熟,消费级 AI 爆发
2023GPT-4 发布多模态能力、推理能力大幅提升
2023Llama, Claude, PaLM 等百花齐放开源与闭源路线并行发展
2024DeepSeek-V3, Claude 3.5, GPT-4o效率与能力持续突破
2025DeepSeek-R1, o3, Gemini 2.5Test-Time Compute / Inference-Time Scaling 推理模型成为新范式

关键能力与特性

核心能力

  1. 文本生成:撰写文章、代码、诗歌、邮件等各类文本
  2. 理解与摘要:提取关键信息、生成摘要、回答问题
  3. 翻译:跨语言文本转换
  4. 推理:数学、逻辑、常识推理
  5. 代码生成与理解:编写、解释、调试代码 (Code Generation / SWE-bench)
  6. 对话交互:多轮对话、上下文理解 (AI Agents)

技术特性

局限与挑战

  • AI Hallucination:生成看似合理但实际错误的内容
  • 知识截止:训练数据有截止日期,无法获取实时信息
  • 推理成本:大模型推理需要大量计算资源
  • 对齐难度:确保模型行为符合人类价值观仍具挑战 (AI Safety & Alignment)
  • 偏见与公平性:训练数据中的偏见可能被模型学习和放大

主要应用场景

场景说明相关概念
对话助手ChatGPT、Claude、Kimi 等通用对话AI Agents
RAG 系统结合外部知识检索的问答Retrieval Augmented Generation
代码辅助GitHub Copilot、Cursor 等Code Generation / SWE-bench
内容创作营销文案、技术文档、创意写作Prompt Engineering
翻译与本地化多语言翻译、文化适配Multimodal Models
数据分析报表生成、洞察提取Structured Output / JSON Mode
教育辅导个性化学习、答疑解惑AI Agents
Agent 系统自主任务执行、工具调用Function Calling / Tool Use, Model Context Protocol (MCP)

开源 vs 闭源

LLM 生态存在两条主要路线:

两条路线在能力、成本、隐私、可控性上各有优劣,详见 Open Source vs Closed Source LLMs 对比分析。

评测与评估

评估 LLM 能力需要多维度的评测基准:

  • 知识推理:MMLU、ARC、HellaSwag
  • 数学能力:GSM8K、MATH
  • 代码能力:HumanEval、SWE-bench (Code Generation / SWE-bench)
  • 长上下文:Needle-in-Haystack、LongBench
  • 安全性:TruthfulQA、BBQ (偏见)、对抗性测试 (Red Teaming)

详见 LLM EvaluationLLM 评测基准对比

未来方向

  1. 推理模型Test-Time Compute / Inference-Time Scaling 通过在推理阶段投入更多计算资源提升输出质量
  2. 多模态融合:文本 + 图像 + 音频 + 视频的统一理解与生成 (Multimodal Models)
  3. Agent 化:从「回答问题」到「执行任务」的演进 (AI Agents)
  4. 端侧部署:小模型 + 高效推理,实现隐私保护的本地运行 (Model Quantization)
  5. 世界模型:从语言理解到物理世界建模的跨越 (World Models)

相关页面

核心架构

训练与优化

推理与部署

应用与系统

安全与评估

实体

比较

参考来源

  1. Vaswani et al. (2017). "Attention Is All You Need." NeurIPS. — Transformer 架构原始论文
  2. Kaplan et al. (2020). "Scaling Laws for Neural Language Models." arXiv:2001.08361. — Scaling Laws 奠基工作
  3. Brown et al. (2020). "Language Models are Few-Shot Learners." NeurIPS. — GPT-3 论文,In-Context Learning
  4. Ouyang et al. (2022). "Training language models to follow instructions with human feedback." — InstructGPT / RLHF
  5. OpenAI (2023). "GPT-4 Technical Report." arXiv:2303.08774. — GPT-4 技术报告
  6. Zhao et al. (2023). "A Survey of Large Language Models." arXiv:2303.18223. — LLM 全面综述
  7. Wikipedia — Large language model

AI Knowledge Base — 持续积累