大语言模型 (Large Language Model, LLM)

基于深度学习的大规模神经网络，通过在海量文本数据上进行自监督预训练，获得理解、生成和推理自然语言的能力，并通过后续对齐技术适配人类需求。

核心定义

大语言模型 (LLM) 是一类参数规模巨大（通常数十亿至数千亿参数）的神经网络模型，以 Transformer 架构为基础，通过在海量无标注文本上进行自监督学习（通常是「预测下一个 Token」任务）来习得语言的统计规律和语义表示。经过预训练后，LLM 可以通过少量示例（In-Context Learning）或进一步微调来执行各类语言任务，无需针对每个任务重新训练。

LLM 的「大」体现在三个维度：

维度	说明	典型范围
参数规模	可学习的权重数量	1B ~ 1T+
训练数据	预训练语料规模	数百 GB ~ 数十 TB
计算量	训练所需 FLOPs	10²¹ ~ 10²⁵

技术原理

1. Transformer 架构基础

现代 LLM 几乎全部采用 Transformer Architecture，其核心是 Attention Mechanism 机制，使模型能够捕捉序列中任意位置之间的依赖关系。关键组件包括：

自注意力 (Self-Attention)：计算序列中每个 Token 与其他所有 Token 的相关性权重
前馈网络 (FFN)：对每个位置的表示进行非线性变换
层归一化 & 残差连接：稳定深层网络的训练
Position Encoding：为模型提供序列顺序信息

2. 预训练 (Pre-training)

预训练是 LLM 能力的来源。模型在大量文本语料上进行自监督学习，典型目标包括：

因果语言建模 (Causal LM)：预测下一个 Token，用于 GPT 类模型
掩码语言建模 (Masked LM)：预测被掩码的 Token，用于 BERT 类模型
前缀语言建模 (Prefix LM)：结合以上两者，用于 T5 类模型

预训练数据通常包括网页文本、书籍、代码、学术论文等，经过质量过滤和去重处理。

3. 对齐 (Alignment)

预训练后的模型需要与人类意图和价值观对齐，主要技术包括：

RLHF：通过人类偏好反馈训练奖励模型，再用强化学习优化策略
DPO & Preference Alignment：直接偏好优化，无需显式奖励模型
Constitutional AI / RLAIF：利用 AI 自身判断进行对齐，减少对人类标注的依赖
指令微调 (Instruction Tuning)：在指令-响应对上监督微调，使模型学会遵循指令

4. Scaling Laws

OpenAI 等团队的研究表明，LLM 的测试损失与模型参数量、训练数据量、计算量之间存在可预测的幂律关系 (Kaplan et al., 2020)。这意味着：

在合理范围内，更大规模的模型 + 更多数据 + 更多计算 = 更好的性能
这种可预测性使得研究者可以在小模型上实验，再外推到大模型的预期表现
DeepSeek 等团队进一步发现，数据质量和训练效率的提升可以打破传统 Scaling Laws 的限制

5. 涌现能力 (Emergent Abilities)

当模型规模超过某个阈值后，会突然表现出小模型不具备的能力，包括：

In-Context Learning：通过上下文示例学习新任务，无需参数更新
Chain-of-Thought & Reasoning：逐步推理解决复杂问题
指令遵循 (Instruction Following)：理解和执行自然语言指令
多步推理与规划：分解复杂任务并执行多步操作

发展历程

时间	里程碑	意义
2017	Transformer 架构提出 (Vaswani et al.)	奠定了现代 LLM 的基础
2018	BERT, GPT-1 发布	预训练 + 微调范式确立
2019	GPT-2 发布 (1.5B)	展示大规模无监督预训练的潜力
2020	GPT-3 发布 (175B)	涌现 In-Context Learning，开启 LLM 时代
2020	Scaling Laws 论文发表	为大模型发展提供理论指导
2022	ChatGPT / InstructGPT 发布	RLHF 对齐技术成熟，消费级 AI 爆发
2023	GPT-4 发布	多模态能力、推理能力大幅提升
2023	Llama, Claude, PaLM 等百花齐放	开源与闭源路线并行发展
2024	DeepSeek-V3, Claude 3.5, GPT-4o	效率与能力持续突破
2025	DeepSeek-R1, o3, Gemini 2.5	Test-Time Compute / Inference-Time Scaling 推理模型成为新范式

关键能力与特性

核心能力

文本生成：撰写文章、代码、诗歌、邮件等各类文本
理解与摘要：提取关键信息、生成摘要、回答问题
翻译：跨语言文本转换
推理：数学、逻辑、常识推理
代码生成与理解：编写、解释、调试代码 (Code Generation / SWE-bench)
对话交互：多轮对话、上下文理解 (AI Agents)

技术特性

Context Window：模型能处理的输入长度，从早期 2K 扩展到 200K+ Token
Tokenization：文本与模型内部表示之间的编码方式
Model Quantization：降低精度以减小模型体积、加速推理
KV Cache & Prompt Caching：推理阶段缓存键值对以加速生成
Speculative Decoding：用小模型预测、大模型验证的加速技术

局限与挑战

AI Hallucination：生成看似合理但实际错误的内容
知识截止：训练数据有截止日期，无法获取实时信息
推理成本：大模型推理需要大量计算资源
对齐难度：确保模型行为符合人类价值观仍具挑战 (AI Safety & Alignment)
偏见与公平性：训练数据中的偏见可能被模型学习和放大

主要应用场景

场景	说明	相关概念
对话助手	ChatGPT、Claude、Kimi 等通用对话	AI Agents
RAG 系统	结合外部知识检索的问答	Retrieval Augmented Generation
代码辅助	GitHub Copilot、Cursor 等	Code Generation / SWE-bench
内容创作	营销文案、技术文档、创意写作	Prompt Engineering
翻译与本地化	多语言翻译、文化适配	Multimodal Models
数据分析	报表生成、洞察提取	Structured Output / JSON Mode
教育辅导	个性化学习、答疑解惑	AI Agents
Agent 系统	自主任务执行、工具调用	Function Calling / Tool Use, Model Context Protocol (MCP)

开源 vs 闭源

LLM 生态存在两条主要路线：

闭源 API 路线：OpenAI (GPT 系列)、Anthropic (Claude)、Google DeepMind (Gemini) 等通过 API 提供服务，模型权重不公开
开源/开放权重路线：Llama (Meta)、Qwen (阿里)、DeepSeek、Mistral AI 等发布模型权重，社区可自由部署和微调

两条路线在能力、成本、隐私、可控性上各有优劣，详见 Open Source vs Closed Source LLMs 对比分析。

评测与评估

评估 LLM 能力需要多维度的评测基准：

知识推理：MMLU、ARC、HellaSwag
数学能力：GSM8K、MATH
代码能力：HumanEval、SWE-bench (Code Generation / SWE-bench)
长上下文：Needle-in-Haystack、LongBench
安全性：TruthfulQA、BBQ (偏见)、对抗性测试 (Red Teaming)

详见 LLM Evaluation 和 LLM 评测基准对比。

未来方向

推理模型：Test-Time Compute / Inference-Time Scaling 通过在推理阶段投入更多计算资源提升输出质量
多模态融合：文本 + 图像 + 音频 + 视频的统一理解与生成 (Multimodal Models)
Agent 化：从「回答问题」到「执行任务」的演进 (AI Agents)
端侧部署：小模型 + 高效推理，实现隐私保护的本地运行 (Model Quantization)
世界模型：从语言理解到物理世界建模的跨越 (World Models)

参考来源

Vaswani et al. (2017). "Attention Is All You Need." NeurIPS. — Transformer 架构原始论文
Kaplan et al. (2020). "Scaling Laws for Neural Language Models." arXiv:2001.08361. — Scaling Laws 奠基工作
Brown et al. (2020). "Language Models are Few-Shot Learners." NeurIPS. — GPT-3 论文，In-Context Learning
Ouyang et al. (2022). "Training language models to follow instructions with human feedback." — InstructGPT / RLHF
OpenAI (2023). "GPT-4 Technical Report." arXiv:2303.08774. — GPT-4 技术报告
Zhao et al. (2023). "A Survey of Large Language Models." arXiv:2303.18223. — LLM 全面综述
Wikipedia — Large language model

大语言模型 (Large Language Model, LLM)

核心定义

技术原理

1. Transformer 架构基础

2. 预训练 (Pre-training)

3. 对齐 (Alignment)

4. Scaling Laws

5. 涌现能力 (Emergent Abilities)

发展历程

关键能力与特性

核心能力

技术特性

局限与挑战

主要应用场景

开源 vs 闭源

评测与评估

未来方向

相关页面

核心架构

训练与优化

推理与部署

应用与系统

安全与评估

实体

比较

参考来源

大语言模型 (Large Language Model, LLM) ​

核心定义 ​

技术原理 ​

1. Transformer 架构基础 ​

2. 预训练 (Pre-training) ​

3. 对齐 (Alignment) ​

4. Scaling Laws ​

5. 涌现能力 (Emergent Abilities) ​

发展历程 ​

关键能力与特性 ​

核心能力 ​

技术特性 ​

局限与挑战 ​

主要应用场景 ​

开源 vs 闭源 ​

评测与评估 ​

未来方向 ​

相关页面 ​

核心架构 ​

训练与优化 ​

推理与部署 ​

应用与系统 ​

安全与评估 ​

实体 ​

比较 ​

参考来源 ​

大语言模型 (Large Language Model, LLM)

核心定义

技术原理

1. Transformer 架构基础

2. 预训练 (Pre-training)

3. 对齐 (Alignment)

4. Scaling Laws

5. 涌现能力 (Emergent Abilities)

发展历程

关键能力与特性

核心能力

技术特性

局限与挑战

主要应用场景

开源 vs 闭源

评测与评估

未来方向

相关页面

核心架构

训练与优化

推理与部署

应用与系统

安全与评估

实体

比较

参考来源