大模型的后训练

Post-training

两篇综述：^[1]^[2]

对于私有化，或有垂直行业需求的开发者，一般需要对模型进行二次训练（微调，对齐等），在训练后进行评测和部署。从训练角度来说，需求一般是：

微调预估显存消耗^[4]

Methods	Bits	7B	14B	30B	`n`B
Full (`bf16` or `fp16`)	32	120 GB	240GB	600GB	`18n`GB
Full (`pure_bf16`)	16	60 GB	120GB	300GB	`8n`GB
Freeze/Lora/GaLore/APOLLO/BAdam	16	16 GB	32GB	64GB	`2n`GB
QLoRA	8	10 GB	20GB	40GB	`n`GB
QLoRA	4	6 GB	12GB	24GB	`n/2`GB
QLoRA	2	4 GB	8GB	16GB	`n/4`GB

GRPO 全量微调显存需求^[5]

Method	Bits	1.5B	3B	7B	32B
GRPO Full Fine-Tuning	AMP	2*24GB	4*40GB	8*40GB	16*80GB
GRPO Full Fine-Tuning	BF16	1*24GB	1*40GB	4*40GB	8*80GB

LoRA^[6]是一种参数高效微调方法，用于将大语言模型适应到下游任务。LoRA 显著减少了可训练参数的数量和 GPU 内存需求，同时实现了与完全微调相当甚至更优的性能，并且独特之处在于它不引入额外的推理延迟。

假设：适应过程中的权重更新具有较低的“内在秩。
Weight updates during adaptation have a low "intrinsic rank.

对于任何预训练权重矩阵 $W_{0} \in R^{d \times k}$ ，LoRA 将权重更新 $Δ W$ 表示为低秩分解：

W = W_{0} + Δ W = W_{0} + B A

其中 $B \in R^{d \times r}$ 和 $A \in R^{r \times k}$ 的秩 $r ≪ min (d, k)$ 。

在训练期间，原始权重 $W_{0}$ 保持冻结，只训练小得多的矩阵 $A$ 和 $B$ 。前向传播变为：

h = W_{0} x + Δ W x = W_{0} x + B A x

其中：