Update-Anchored Post-Training：把训练轨迹当作后训练的方向先验

一份研究 proposal：与其把 base model 当成一个静态的初始化点，不如把它最近的训练历史当作信息——从 checkpoint 轨迹或廉价 probe 训练中抽取「有用的更新方向」，再用这些方向去约束、外推或采样后训练的更新，让模型在学到新任务的同时，更少地偏离原有能力所在的那片平滑、安全的盆地。｜ 2026-06

Motivation

现代 LLM 的后训练，通常从一个已经很强的 pretrained / mid-trained 模型出发，再叠加相对少量的适配。越来越多的经验结果指向同一件事：预训练点附近的这片局部区域，其实已经高度结构化。

几条线索：预训练阶段的 checkpoint averaging 能部分复现 learning-rate decay 的收益²；checkpoint merging 可以被解释成「复用并重新加权历史更新」³；在预训练点附近做参数采样，也能筛出有用的任务特定变体⁴；而那些更贴近 base 模型输出分布的后训练方法，往往遗忘更少。

把这些线索拼在一起，会自然冒出一个简单的问题：能不能显式地从训练轨迹（或廉价的 probe 训练）中抽取出有用的更新方向，再用这些方向来引导后训练？

目标是让后训练更稳、更便宜。与其把 base 当成单一静态初始化，不如把它最近的训练历史当作有用信息。核心假设是：某些参数更新方向，对应着 loss 地形里更平滑、更安全的区域。如果能把这些方向识别出来，或许就能在适配新任务的同时，减少对预训练 / mid-training 已经形成的能力的无谓 drift。

Background

这份 proposal 的文献基础，整理在从 Checkpoint 平均，到 Task Expert 合并，再到专家蒸馏一文里——下面四条工作线在那篇的 Part 1 有更展开的讨论。

直接的背景来自四条工作线。

第一，WSD 式预训练¹把训练切成 warmup、stable、decay 三段。decay 段可能很贵，但它常常帮模型 settle 进一个更好的区域——这暗示「怎么收尾」本身携带几何信息。

第二，PMA²证明：对 stable 阶段的 checkpoint 做平均，可以部分替代甚至预测完整退火的效果。这说明 stable 阶段的轨迹里装着有用的几何信息，而不只是噪声般的中间权重。

第三，WSM³给了 checkpoint merging 一个更偏「更新层面」的视角：一个 merged checkpoint，可以看成原模型加上历史更新的一个重新加权组合。这对我们很关键——它把注意力从「平均后的最终权重」引向「更新方向」本身。

第四，RandOpt / Neural Thickets⁴这类采样式方法表明：预训练权重附近存在有用的模型变体。这支撑了一个更宽的后训练观——参数更新不必只来自梯度下降，它也可以来自采样、合并、外推，或权重空间里的其他搜索过程。

合起来，这四条线指向同一个图景：预训练模型的邻域是结构化的，而训练轨迹可能为「在权重空间里找到好的更新」提供一个低成本的先验。

Core Idea

我们提出 Update-Anchored Post-Training（更新方向锚定的后训练）。

方法第一步，是抽取一小组重要的参数更新方向。它们可以来自三个来源：

来源一：mid-training / stable 阶段的 checkpoint 轨迹。 计算相邻 checkpoint 之间、或 merged checkpoint 与参考 checkpoint 之间的差，得到的方向代表「模型在一段高质量训练里自然移动的方式」。

来源二：在高质量数据上做的短 probe 训练。 数据可以是 pretrain 风格（高质量 web / code / math / 领域语料），也可以是 post-train 风格（instruction / reasoning / preference / 任务样本）。probe run 可以非常短——它的目的不是产出最终模型，而是揭示模型在面对目标数据时「想往哪走」。这里的 delta weight，本质上就是一个 task direction，与 task arithmetic 的视角同源⁵。

来源三：checkpoint merging / averaging 本身。 如果 PMA 或 WSM 产出了一个更好的 checkpoint，那么 merged 模型与原模型之间的差，本身就可以当作一个候选 basin direction。

拿到这些方向之后，把它们当作后训练中的锚（anchor）：允许模型学新任务，但对那些强烈抹除、或逆着这些被保护方向走的更新加以抑制。还可以叠加一个轻量的输出空间约束——比如在一个小 calibration set 上度量 base 模型与更新后模型之间的 KL divergence。这样就同时握住了参数层面和行为层面两道约束。

期望的结果是：一个在新任务上变好、却仍停留在训练轨迹所指示的那片更平滑、更安全区域附近的后训练模型。

方法的三个层级

设计上刻意从保守到激进，分三层，方便逐级验证。

第一层，也最保守：Trajectory-Anchored Regularization（轨迹锚定正则）。 从 stable / mid-training 的 checkpoint 抽取更新方向，在 SFT、RL 或 continued training 时加一个正则项，抑制新模型「撤销」那些重要历史更新。这一版最接近标准训练，最容易验证。一个成功的结果会是：在新任务表现相当的前提下，anchored 模型遗忘更少、输出 drift 更小，或从 base 到新模型的插值更平滑。

第二层：Probe-Direction Extrapolation（probe 方向外推）。 用少量高质量数据跑一段短 probe 训练，把得到的 delta weight 当作一个 task direction，再以不同的外推系数把它加到 PMA / base checkpoint 上，可选地与轨迹给出的 basin direction 组合。这一版检验的是：一次很便宜的 probe run，能不能为某个目标域 / 任务族产出一个可复用的更新先验。 当完整后训练很贵、或希望用极少 batch / 一个短 epoch 近似一部分长适配的效果时，这一层尤其相关。

第三层，也最激进：Constrained Parameter Sampling（受约束的参数采样）。 在 base / PMA checkpoint 附近采样参数扰动，但采样分布由抽取出的方向引导——轨迹或 probe 支持的方向给更大的采样方差，无关方向给更小的方差。候选模型再用新任务表现 + 安全约束（calibration KL、旧任务保持率、是否保住被保护的更新方向）共同筛选。这一版把 RandOpt 式采样⁴推广成「带训练轨迹先验」的采样。

Expected Contribution

主要贡献，是提出一个把历史参数更新当作后训练可复用锚点的框架。它把关注点从「checkpoint averaging 作为一个终点」转向「更新方向作为一个可复用对象」。

如果成立，它可能提供一条低成本路径：近似一部分退火的收益、提升后训练的稳定性、并减少任务适配过程中的能力退化。方法刻意保持宽泛——真正的更新可以来自梯度下降、外推、合并、采样，或其他权重空间搜索。关键不在更新怎么产生，而在候选更新是相对「从高质量训练历史中抽取的方向」来评估的。

初步实验方向

第一个实验可以用一个小的开源模型，用高质量 pretrain 风格数据构造一段短 stable 阶段：保存若干 checkpoint，计算轨迹方向，可选地产出一个 PMA / WSM 式 merged checkpoint，然后在一个目标任务上做后训练。对比组可以包括：普通 SFT、PMA 初始化 + SFT、anchored SFT，以及一个简单的 probe-direction extrapolation 变体。

评测先保持轻量。主要看四件事：新任务表现、几项 base 能力的保持、calibration set 上的输出 KL、以及 base 与更新后模型之间的插值是否仍然平滑。 第一版的目标不是解决所有后训练场景，而是回答一个更聚焦的问题——stable 阶段的更新方向，到底含不含「能让适配更安全」的有用信息。

一句话版本

stable 阶段与 probe 训练的更新方向，能否充当低成本的锚，让后训练更安全？

更具体地说：能否从 checkpoint 轨迹或短的高质量 probe run 中抽取有用的参数方向，再用它们去约束、外推或采样后训练的更新，使模型在获得新任务能力的同时，保留更多原有能力所在的那片 capability basin？

参考文献

Hu, S., et al. MiniCPM: Unveiling the Potential of Small Language Models with Scalable Training Strategies (WSD schedule). COLM 2024. arXiv:2404.06395, 2024.
ByteDance Seed. Model Merging in Pre-training of Large Language Models (PMA). arXiv:2505.12082, 2025.
Yang, et al. WSM: Warmup-Stable and Merge — Decay-Free Learning Rate Schedule via Checkpoint Merging. arXiv:2507.17634, 2025.
Gan, Y., Isola, P. Neural Thickets: Diverse Task Experts Are Dense Around Pretrained Weights (RandOpt). arXiv:2603.12228, 2026.
Ilharco, G., Ribeiro, M. T., Wortsman, M., Schmidt, L., Hajishirzi, H., Farhadi, A. Editing Models with Task Arithmetic. ICLR 2023. arXiv:2212.04089, 2022.

MindFlow

Explorer

Update-Anchored Post-Training