Skip to content

Fine-tuning

微调(Fine-tuning)是在预训练大模型基础上,用特定领域或任务的数据继续训练,使其适配下游需求的方法。没有微调,通用模型很难真正"可用"于具体场景。

Definition

微调的核心思路:预训练模型已经具备广泛的语言/知识能力(通过大规模语料训练),微调在此基础上进行定向适配——不是从零学起,只"引导"已有能力向特定方向集中。

现代微调分为全参数微调(Full Fine-tuning)和参数高效微调(PEFT)两大类。

Current Understanding

主流方法对比

方法参数比例关键特征适用场景
Full Fine-tuning100%更新全部参数最大性能需求;预算充足;小模型
LoRA0.1–1%向注意力层注入低秩矩阵最广泛使用的 PEFT;单基座多适配器
QLoRA0.1–1%4-bit 量化基座 + LoRA单卡微调 65B+ 模型(24GB 显存)
Prefix Tuning~0.1%输入前加可学习的连续向量极小数据集场景
Adapter1–3%层间插入小型瓶颈模块灵活的位置选择和参数量

数据类型

  • 指令微调:(输入, 输出) 对,训练指令遵循能力(如 Alpaca、LIMA)
  • 领域适配:领域无标注文本进行继续预训练
  • 偏好微调:chosen/rejected 对用于 RLHF/DPO 对齐

关键工具

  • Hugging Face TRL:SFTTrainer、DPOTrainer,支持 LoRA/QLoRA
  • Axolotl:YAML 配置驱动,支持 FSDP/DeepSpeed 多种后端
  • Unsloth:优化 CUDA 内核,2x 加速 + 50% 省显存

Why It Matters

  • 微调是将 DeepSeekLlamaMistral AI 等开源模型转化为"私有领域模型"的唯一路径
  • LoRA 和 QLoRA 的出现大幅降低了微调门槛——从需要大 GPU 集群变为单卡即可
  • 理解微调的质量控制(数据质量、遗忘问题)直接决定了 AI 落地的实际效果
  • RLHFModel Inference & Deployment 构成"训练→对齐→部署"完整链条

Open Questions

  • 微调中的灾难性遗忘如何进一步缓解?
  • [[synthetic-data|合成数据]](来自 GPT-4 等强模型)会否导致模型同质化?
  • 有没有可能在 <100 样本的极端低资源下实现有效微调?

Sources

  • raw/articles/fine-tuning-research-2026-04-26.md

AI Knowledge Base — 持续积累