Appearance
概念
AI / LLM 领域的核心技术概念,从底层架构到上层应用系统化组织。
模型架构
大模型的基础结构设计——模型"长什么样"。
- Large Language Model (LLM) — 大语言模型的核心定义、技术原理、发展历程与关键能力。
- Transformer Architecture — 现代大模型的基础架构范式。
- Attention Mechanism — Transformer 的核心计算单元,现代大语言模型能力的基础。
- Position Encoding — 为 Transformer 模型提供序列位置信息的技术,从正弦位置编码到 RoPE 的演进。
- RoPE (Rotary Position Embedding) — RoPE,通过旋转矩阵将位置信息编码到注意力计算中的相对位置表示方法,当前主流标准。
- Mixture of Experts — 用稀疏专家激活提升模型容量与效率的架构思路。
- Multimodal Models — 跨文本、图像、音频、视频的多模态 AI 架构与能力。
- Diffusion Models — 去噪扩散概率模型,现代图像/视频/音频生成(Stable Diffusion、Sora)的基础。
- Mamba / State Space Models —— Mamba / 状态空间模型,以线性复杂度和选择性注意力挑战 Transformer 的新架构。
- Mixture of Depths (MoD) —— 深度维度的动态计算分配,与 MoE 正交的 Transformer 稀疏化新方向。
- World Models —— 能够学习并模拟环境动态规律的生成式 AI 模型,从像素到 3D 空间,从预测到交互。
- 自回归、扩散模型与 Flow Matching —— 生成式 AI 三大范式对比:自回归(GPT)、扩散模型(Stable Diffusion)与 Flow Matching(FLUX.1、Stable Diffusion 3)的原理对比与应用场景。
- NeRF / 3D Gaussian Splatting —— 从隐式神经表示到显式高斯点云的 3D 场景重建与新视角合成,空间智能与 World Models 的核心视觉基础。
- Prefix LM vs Causal LM —— Transformer 两大核心注意力架构范式对比,理解 T5 与 GPT 的设计差异。
训练方法论
模型如何学习和优化——从数据到参数。
- Fine-tuning — 在预训练模型基础上用特定数据继续训练以实现定向适配。
- RLHF — 基于人类偏好对齐模型的训练方法论。
- DPO & Preference Alignment — 无需奖励模型的直接偏好优化对齐方法。
- Constitutional AI / RLAIF — 利用 AI 自身判断来对齐模型行为的方法论,比 RLHF 更可扩展。
- Synthetic Data — 由 AI 生成的训练数据,自我对弈、拒绝采样与数据增强范式。
- Knowledge Distillation — 知识蒸馏——将大型教师模型的能力迁移至小型学生模型的技术。
- Model Merging — 将多个训练好的模型或适配器合并为一个新模型的技术,开源社区独特能力。
- Scaling Laws —— 模型性能随参数、数据和计算量可预测增长的幂律理论。
- Emergent Abilities / Grokking —— 大模型涌现能力与训练顿悟现象,理解"量变引起质变"的深层机制。
推理与生成
模型如何产出结果——从 Token 到部署。
- Chain-of-Thought & Reasoning — 思维链提示与推理模型——让 LLM 进行逐步推理的核心技术。
- In-Context Learning — 大语言模型通过上下文示例学习新任务的能力,无需参数更新。
- Temperature & Sampling Strategies — Temperature 与采样策略,控制 LLM 生成行为的随机性、多样性与准确性。
- Tokenization — 将文本分割成 Token 的基础方法(BPE、SentencePiece 等)。
- Model Quantization — 降低模型精度以减小体积、加速推理的核心技术。
- KV Cache & Prompt Caching — Transformer 推理性能优化的核心技术,显著影响延迟和成本。
- Speculative Decoding — 用小模型预测、大模型验证的推理加速技术,无损失 2-3x 速度提升。
- FlashAttention — 通过 IO-Aware 的精确注意力计算显著加速 Transformer 训练与推理的算法突破。
- Model Inference & Deployment — 模型推理优化技术与生产级部署框架。
- Context Window — 大语言模型能处理的输入长度限制与长上下文技术进展。
- 长上下文技术 — 从 2K 到 1M+ token 的技术演进:Ring Attention、YaRN、NTK-aware scaling 与位置编码扩展方法。
应用与系统工程
模型在实际系统中的落地与生态。
- AI Agents —— 结合推理、工具调用和任务执行的 AI 系统形态。
- Tool Use / Toolformer —— 大语言模型通过 API 调用外部工具的技术范式,从自监督学习到工程标准化的层次。
- Harness Engineering — OpenAI 提出的 AI Agent 驱动软件开发方法论(Codex)。
- Harness Engineering — Implementation Patterns — 从精英团队到一人军团的实践模式。
- Harness Engineering — The Evaluation Problem — 评估问题:如何可靠验证智能体生成的代码。
- Harness Engineering — Advanced Topics — 高级话题:Meta-Harness、产品级验证与控制论框架的缺陷。
- Prompt Engineering — 通过精心构造提示来引导 LLM 输出质量的核心技能。
- Function Calling / Tool Use — LLM 与外部世界交互的标准化接口,Agent 架构的核心支柱。
- Structured Output / JSON Mode — 强制 LLM 输出符合预定义 schema 的技术,生产级应用的基础。
- Retrieval Augmented Generation — 将外部知识检索与生成结合的常见落地方法。
- LLM Wiki — 基于 LLM 的持久化知识库模式,让 Agent 增量式编译和维护结构化知识。
- Semantic Search — 基于向量表示的语义搜索技术,RAG 系统的核心召回层。
- Model Context Protocol (MCP) — AI 应用与外部系统的标准化连接协议(MCP)。
- Vector Databases — 向量数据库,RAG 系统的核心存储层与高效检索基础设施。
- Embedding Models / Vector Representations — 文本嵌入与向量表示技术,语义搜索和 RAG 的基础组件。
- Code Generation / SWE-bench — AI 辅助软件工程的能力评估与技术进展,Copilot 和 Cursor 的技术基础。
- Speech AI (TTS / STT) — 语音人工智能技术,包括 TTS、STT 和端到端语音交互。
- Outlines — Outlines,用于 LLM 结构化输出的开源 Python 框架,通过正则表达式和 CFG 精确控制输出格式。
- DSPy — DSPy,Stanford NLP 团队开发的声明式 LLM 编程框架,将提示词工程转变为编程问题。
- Query — 向 AI 模型、数据库或搜索引擎发出的查询请求,人机交互与 RAG 系统的核心单元。
Agent Skills
将领域专业知识和工作流封装为 AI Agent 可动态加载的可移植能力包。
- Agent Skills 总览 — Agent Skills 概念、价值定位与核心设计哲学。
- Agent Skills 格式规范 — SKILL.md 完整格式规范、Frontmatter 字段与目录结构标准。
- Agent Skills 生态与平台 — 主流平台实现差异、官方 Skill 仓库与社区生态。
- Agent Skills 最佳实践 — 从真实 expertise 提取 Skill、上下文优化与验证迭代方法。
安全与评估
模型的可靠性、安全性与治理。
- LLM Evaluation — LLM 评测体系与 EleutherAI LM Evaluation Harness 评估框架。
- Red Teaming — 系统性挑战 AI 系统以发现潜在弱点的方法论。
- Watermarking / AI Detection — AI 生成内容的水印与检测技术,涉及内容溯源、Deepfake 检测和政策合规。
- AI Safety & Alignment — AI 安全研究、价值对齐、Constitutional AI 与治理框架。
- AI Hallucination — LLM 产生虚假信息的现象、成因、检测与缓解策略。
- Jailbreak 与 Prompt Injection — LLM 安全攻防核心概念:角色仿觃、目标劫持、直接/间接注入与防御机制。
生成与多模态
内容生成与跨模态能力。
- Text-to-Video / Video Generation — 从文本或图像生成连续视频内容的技术,生成式 AI 的下一个主战场。
- Test-Time Compute / Inference-Time Scaling — 在推理阶段投入更多计算资源以提升输出质量,o1/o3/R1 的底层逻辑。
- LoRA / PEFT — 低秉适配和参数高效微调方法,LLM 落地应用的最重要工程技术之一。
- GRPO / RLVR — 推理模型训练的新范式,DeepSeek-R1 成功的关键技术之一。