Update-Anchored Post-Training:把训练轨迹当作后训练的方向先验

一份研究 proposal:与其把 base model 当成一个静态的初始化点,不如把它最近的训练历史当作信息——从 checkpoint 轨迹或廉价 probe 训练中抽取「有用的更新方向」,再用这些方向去约束、外推或采样后训练的更新,让模型在学到新任务的同时,更少地偏离原有能力所在的那片平滑、安全的盆地。| 2026-06

Motivation

现代 LLM 的后训练,通常从一个已经很强的 pretrained / mid-trained 模型出发,再叠加相对少量的适配。越来越多的经验结果指向同一件事:预训练点附近的这片局部区域,其实已经高度结构化

几条线索:预训练阶段的 checkpoint averaging 能部分复现 learning-rate decay 的收益2;checkpoint merging 可以被解释成「复用并重新加权历史更新」3;在预训练点附近做参数采样,也能筛出有用的任务特定变体4;而那些更贴近 base 模型输出分布的后训练方法,往往遗忘更少。

把这些线索拼在一起,会自然冒出一个简单的问题:能不能显式地从训练轨迹(或廉价的 probe 训练)中抽取出有用的更新方向,再用这些方向来引导后训练?

目标是让后训练更稳、更便宜。与其把 base 当成单一静态初始化,不如把它最近的训练历史当作有用信息。核心假设是:某些参数更新方向,对应着 loss 地形里更平滑、更安全的区域。如果能把这些方向识别出来,或许就能在适配新任务的同时,减少对预训练 / mid-training 已经形成的能力的无谓 drift。

Background

这份 proposal 的文献基础,整理在 从 Checkpoint 平均,到 Task Expert 合并,再到专家蒸馏 一文里——下面四条工作线在那篇的 Part 1 有更展开的讨论。

直接的背景来自四条工作线。

第一,WSD 式预训练1把训练切成 warmup、stable、decay 三段。decay 段可能很贵,但它常常帮模型 settle 进一个更好的区域——这暗示「怎么收尾」本身携带几何信息。

第二,PMA2证明:对 stable 阶段的 checkpoint 做平均,可以部分替代甚至预测完整退火的效果。这说明 stable 阶段的轨迹里装着有用的几何信息,而不只是噪声般的中间权重。

第三,WSM3给了 checkpoint merging 一个更偏「更新层面」的视角:一个 merged checkpoint,可以看成原模型加上历史更新的一个重新加权组合。这对我们很关键——它把注意力从「平均后的最终权重」引向「更新方向」本身。

第四,RandOpt / Neural Thickets4这类采样式方法表明:预训练权重附近存在有用的模型变体。这支撑了一个更宽的后训练观——参数更新不必只来自梯度下降,它也可以来自采样、合并、外推,或权重空间里的其他搜索过程。

合起来,这四条线指向同一个图景:预训练模型的邻域是结构化的,而训练轨迹可能为「在权重空间里找到好的更新」提供一个低成本的先验。

Core Idea

我们提出 Update-Anchored Post-Training(更新方向锚定的后训练)

方法第一步,是抽取一小组重要的参数更新方向。它们可以来自三个来源:

来源一:mid-training / stable 阶段的 checkpoint 轨迹。 计算相邻 checkpoint 之间、或 merged checkpoint 与参考 checkpoint 之间的差,得到的方向代表「模型在一段高质量训练里自然移动的方式」。

来源二:在高质量数据上做的短 probe 训练。 数据可以是 pretrain 风格(高质量 web / code / math / 领域语料),也可以是 post-train 风格(instruction / reasoning / preference / 任务样本)。probe run 可以非常短——它的目的不是产出最终模型,而是揭示模型在面对目标数据时「想往哪走」。这里的 delta weight,本质上就是一个 task direction,与 task arithmetic 的视角同源5

来源三:checkpoint merging / averaging 本身。 如果 PMA 或 WSM 产出了一个更好的 checkpoint,那么 merged 模型与原模型之间的差,本身就可以当作一个候选 basin direction。

拿到这些方向之后,把它们当作后训练中的锚(anchor):允许模型学新任务,但对那些强烈抹除、或逆着这些被保护方向走的更新加以抑制。还可以叠加一个轻量的输出空间约束——比如在一个小 calibration set 上度量 base 模型与更新后模型之间的 KL divergence。这样就同时握住了参数层面行为层面两道约束。

期望的结果是:一个在新任务上变好、却仍停留在训练轨迹所指示的那片更平滑、更安全区域附近的后训练模型。

方法的三个层级

设计上刻意从保守到激进,分三层,方便逐级验证。

第一层,也最保守:Trajectory-Anchored Regularization(轨迹锚定正则)。 从 stable / mid-training 的 checkpoint 抽取更新方向,在 SFT、RL 或 continued training 时加一个正则项,抑制新模型「撤销」那些重要历史更新。这一版最接近标准训练,最容易验证。一个成功的结果会是:在新任务表现相当的前提下,anchored 模型遗忘更少、输出 drift 更小,或从 base 到新模型的插值更平滑

第二层:Probe-Direction Extrapolation(probe 方向外推)。 用少量高质量数据跑一段短 probe 训练,把得到的 delta weight 当作一个 task direction,再以不同的外推系数把它加到 PMA / base checkpoint 上,可选地与轨迹给出的 basin direction 组合。这一版检验的是:一次很便宜的 probe run,能不能为某个目标域 / 任务族产出一个可复用的更新先验。 当完整后训练很贵、或希望用极少 batch / 一个短 epoch 近似一部分长适配的效果时,这一层尤其相关。

第三层,也最激进:Constrained Parameter Sampling(受约束的参数采样)。 在 base / PMA checkpoint 附近采样参数扰动,但采样分布由抽取出的方向引导——轨迹或 probe 支持的方向给更大的采样方差,无关方向给更小的方差。候选模型再用新任务表现 + 安全约束(calibration KL、旧任务保持率、是否保住被保护的更新方向)共同筛选。这一版把 RandOpt 式采样4推广成「带训练轨迹先验」的采样。

Expected Contribution

主要贡献,是提出一个把历史参数更新当作后训练可复用锚点的框架。它把关注点从「checkpoint averaging 作为一个终点」转向「更新方向作为一个可复用对象」。

如果成立,它可能提供一条低成本路径:近似一部分退火的收益、提升后训练的稳定性、并减少任务适配过程中的能力退化。方法刻意保持宽泛——真正的更新可以来自梯度下降、外推、合并、采样,或其他权重空间搜索。关键不在更新怎么产生,而在候选更新是相对「从高质量训练历史中抽取的方向」来评估的。

初步实验方向

第一个实验可以用一个小的开源模型,用高质量 pretrain 风格数据构造一段短 stable 阶段:保存若干 checkpoint,计算轨迹方向,可选地产出一个 PMA / WSM 式 merged checkpoint,然后在一个目标任务上做后训练。对比组可以包括:普通 SFT、PMA 初始化 + SFT、anchored SFT,以及一个简单的 probe-direction extrapolation 变体。

评测先保持轻量。主要看四件事:新任务表现、几项 base 能力的保持、calibration set 上的输出 KL、以及 base 与更新后模型之间的插值是否仍然平滑。 第一版的目标不是解决所有后训练场景,而是回答一个更聚焦的问题——stable 阶段的更新方向,到底含不含「能让适配更安全」的有用信息。

一句话版本

stable 阶段与 probe 训练的更新方向,能否充当低成本的锚,让后训练更安全?

更具体地说:能否从 checkpoint 轨迹或短的高质量 probe run 中抽取有用的参数方向,再用它们去约束、外推或采样后训练的更新,使模型在获得新任务能力的同时,保留更多原有能力所在的那片 capability basin?


参考文献

  1. Hu, S., et al. MiniCPM: Unveiling the Potential of Small Language Models with Scalable Training Strategies (WSD schedule). COLM 2024. arXiv:2404.06395, 2024.
  2. ByteDance Seed. Model Merging in Pre-training of Large Language Models (PMA). arXiv:2505.12082, 2025.
  3. Yang, et al. WSM: Warmup-Stable and Merge — Decay-Free Learning Rate Schedule via Checkpoint Merging. arXiv:2507.17634, 2025.
  4. Gan, Y., Isola, P. Neural Thickets: Diverse Task Experts Are Dense Around Pretrained Weights (RandOpt). arXiv:2603.12228, 2026.
  5. Ilharco, G., Ribeiro, M. T., Wortsman, M., Schmidt, L., Hajishirzi, H., Farhadi, A. Editing Models with Task Arithmetic. ICLR 2023. arXiv:2212.04089, 2022.