Appearance
Fine-tuning
微调(Fine-tuning)是在预训练大模型基础上,用特定领域或任务的数据继续训练,使其适配下游需求的方法。没有微调,通用模型很难真正"可用"于具体场景。
Definition
微调的核心思路:预训练模型已经具备广泛的语言/知识能力(通过大规模语料训练),微调在此基础上进行定向适配——不是从零学起,只"引导"已有能力向特定方向集中。
现代微调分为全参数微调(Full Fine-tuning)和参数高效微调(PEFT)两大类。
Current Understanding
主流方法对比
| 方法 | 参数比例 | 关键特征 | 适用场景 |
|---|---|---|---|
| Full Fine-tuning | 100% | 更新全部参数 | 最大性能需求;预算充足;小模型 |
| LoRA | 0.1–1% | 向注意力层注入低秩矩阵 | 最广泛使用的 PEFT;单基座多适配器 |
| QLoRA | 0.1–1% | 4-bit 量化基座 + LoRA | 单卡微调 65B+ 模型(24GB 显存) |
| Prefix Tuning | ~0.1% | 输入前加可学习的连续向量 | 极小数据集场景 |
| Adapter | 1–3% | 层间插入小型瓶颈模块 | 灵活的位置选择和参数量 |
数据类型
- 指令微调:(输入, 输出) 对,训练指令遵循能力(如 Alpaca、LIMA)
- 领域适配:领域无标注文本进行继续预训练
- 偏好微调:chosen/rejected 对用于 RLHF/DPO 对齐
关键工具
- Hugging Face TRL:SFTTrainer、DPOTrainer,支持 LoRA/QLoRA
- Axolotl:YAML 配置驱动,支持 FSDP/DeepSpeed 多种后端
- Unsloth:优化 CUDA 内核,2x 加速 + 50% 省显存
Why It Matters
- 微调是将 DeepSeek、Llama、Mistral AI 等开源模型转化为"私有领域模型"的唯一路径
- LoRA 和 QLoRA 的出现大幅降低了微调门槛——从需要大 GPU 集群变为单卡即可
- 理解微调的质量控制(数据质量、遗忘问题)直接决定了 AI 落地的实际效果
- 与 RLHF 和 Model Inference & Deployment 构成"训练→对齐→部署"完整链条
Related Concepts
- 相关概念:RLHF、Scaling Laws、Model Inference & Deployment、Mixture of Experts
- 相关实体:Llama、Mistral AI、Qwen、Microsoft (Phi)
Open Questions
- 微调中的灾难性遗忘如何进一步缓解?
- [[synthetic-data|合成数据]](来自 GPT-4 等强模型)会否导致模型同质化?
- 有没有可能在 <100 样本的极端低资源下实现有效微调?
Sources
- raw/articles/fine-tuning-research-2026-04-26.md