Fine-tuning

微调（Fine-tuning）是在预训练大模型基础上，用特定领域或任务的数据继续训练，使其适配下游需求的方法。没有微调，通用模型很难真正"可用"于具体场景。

Definition

微调的核心思路：预训练模型已经具备广泛的语言/知识能力（通过大规模语料训练），微调在此基础上进行定向适配——不是从零学起，只"引导"已有能力向特定方向集中。

现代微调分为全参数微调（Full Fine-tuning）和参数高效微调（PEFT）两大类。

Current Understanding

主流方法对比

方法	参数比例	关键特征	适用场景
Full Fine-tuning	100%	更新全部参数	最大性能需求；预算充足；小模型
LoRA	0.1–1%	向注意力层注入低秩矩阵	最广泛使用的 PEFT；单基座多适配器
QLoRA	0.1–1%	4-bit 量化基座 + LoRA	单卡微调 65B+ 模型（24GB 显存）
Prefix Tuning	~0.1%	输入前加可学习的连续向量	极小数据集场景
Adapter	1–3%	层间插入小型瓶颈模块	灵活的位置选择和参数量

数据类型

指令微调：(输入, 输出) 对，训练指令遵循能力（如 Alpaca、LIMA）
领域适配：领域无标注文本进行继续预训练
偏好微调：chosen/rejected 对用于 RLHF/DPO 对齐

关键工具

Hugging Face TRL：SFTTrainer、DPOTrainer，支持 LoRA/QLoRA
Axolotl：YAML 配置驱动，支持 FSDP/DeepSpeed 多种后端
Unsloth：优化 CUDA 内核，2x 加速 + 50% 省显存

Why It Matters

微调是将 DeepSeek、Llama、Mistral AI 等开源模型转化为"私有领域模型"的唯一路径
LoRA 和 QLoRA 的出现大幅降低了微调门槛——从需要大 GPU 集群变为单卡即可
理解微调的质量控制（数据质量、遗忘问题）直接决定了 AI 落地的实际效果
与 RLHF 和 Model Inference & Deployment 构成"训练→对齐→部署"完整链条

相关概念：RLHF、Scaling Laws、Model Inference & Deployment、Mixture of Experts
相关实体：Llama、Mistral AI、Qwen、Microsoft (Phi)

Open Questions

微调中的灾难性遗忘如何进一步缓解？
[[synthetic-data|合成数据]]（来自 GPT-4 等强模型）会否导致模型同质化？
有没有可能在 <100 样本的极端低资源下实现有效微调？

Sources

raw/articles/fine-tuning-research-2026-04-26.md