English · 中文

目录



为什么要读这些技术报告?

在深度学习时代的大部分时间里,一个前沿模型究竟是怎么训练出来的一直是业界守口如瓶的秘密:系统卡片里的寥寥数语、一个参数量、一张基准测试表格。你可以读遍每一篇论文,却仍然不知道该如何造出一个。这种情况已经改变了。2024-2026 年间发生了一件了不起的事:一家接一家实验室发布了真正的端到端技术报告——不是吊人胃口的预告,而是数据流水线、架构消融实验、优化器、强化学习配方、奖励设计、评测方法以及安全流程。DeepSeek(V3、V3.2、R1)、Qwen3、Kimi K2 和 k1.5、Meta 的 Llama 3、Google 的 Gemma、Microsoft AI 的 MAI-Thinking-1、Zhipu 的 GLM-4.5、Alibaba、Moonshot、Xiaomi 的 MiMo、Tencent 的 Hunyuan、MiniMax、NVIDIA 的 Nemotron,以及完全开源的 OLMo 2 / Tulu 3——它们合在一起,就是一本无心插柳的教科书。

把它们并排来读,最令人惊讶的不是各家实验室有多么不同,而是它们变得多么趋同。剥去品牌的外衣,几乎每一篇报告走的都是同一条路:

论点。到 2026 年,训练一个前沿 LLM 本质上只有一套配方——一条标准流水线,从数据 → 预训练 → 中期训练 → 后训练(先 SFT 后 RL) → 对齐 → 评测 → 安全。区分各家实验室的不再是骨架;而是一小撮设计选择(如何平衡 mixture-of-experts、用哪种 RL 算法变体、信任哪些奖励、是否使用合成数据、是否蒸馏)以及少数几个在大规模下保持稳定的来之不易的技巧

本文讲的就是这套配方,逐阶段教学。我们以 Microsoft AI 的 MAI-Thinking-1 报告作为主线,因为它异常坦诚,并且很好地把整件事框定为打造一台“爬山机器”:一个由数据流水线、训练基础设施、RL 环境、评测套件和安全测试构成的一体化系统,它把模型研发变成一个经验性的优化循环。在每个阶段,我们都问同一个问题——MAI 是怎么做的,其他家又是怎么做的?——然后让其他报告彼此印证、相互分歧,偶尔自相矛盾。

端到端的前沿 LLM 训练流水线 图 1. 本文遵循的这条反复出现的流水线。数据先经过筛选整理,基座模型先预训练、再中期训练,后训练加入 SFT 和若干次 RL”攀登”,并把它们整合成一个模型,所有这一切都由评测和红队来衡量——其结果又反馈给下一轮迭代。本文中的每一家实验室都在实例化这同一副骨架;它们的差别主要在于旋钮的设置。

关于如何带着怀疑去读这些报告,这里说一句。一篇技术报告同时扮演两个角色。它是一份产品发布公告——所以基准测试表格的选取都是为了好看——同时它又是一份可复现的配方——所以方法部分才是真正信号所在的地方。完全开源的工作(OLMo 2、Tulu 3、Nemotron)会把其他家只能含糊转述的内容如实披露出来,所以每当一篇闭源报告变得含混时,我们就会倚重它们。并且自始至终,请记住一个我们会反复回到的区别:一家实验室声称有用的东西,与它实际做了消融并测量过的东西之间的差别。好的报告大多属于后者。

小结。2024-2026 年的技术报告已经收敛到一套统一的端到端配方;本文逐阶段讲解这套配方,以 MAI-Thinking-1 为主线,以其他实验室作为相互印证的合唱。


前沿模型的样子

在讲流水线之前,先看产物。如果你把 MAI-Thinking-1、DeepSeek-V3、Qwen3、Kimi K2、Llama 3 和 Gemma 3 的配置并排打开,你会惊讶于它们有多么相似。decoder-only Transformer 已经收敛到一个近乎通用的模块,而 2024–2026 年的报告把这个模块当作样板代码——它们的架构章节都花在两件仍然悬而未决的事情上:如何做到稀疏(mixture-of-experts),以及如何让注意力在长上下文下变得廉价

已经定型的核心

本文中的每一个模型都是 decoder-only Transformer,由同样的五个部件构成,每一个都是在历时数年的比拼中”胜出”的:

  • RoPE 负责位置——旋转位置编码刻画的是相对距离,并且能干净地外推,这也是为什么所有模型随后都用 RoPE-base scaling / YaRN 来拉长上下文(Su et al., 2021)。
  • GQA 解决 KV-cache 瓶颈——grouped-query attention 只用解码时一小部分的显存,就拿到接近完整注意力的大部分质量(Ainslie et al., 2023)。
  • SwiGLU 用于前馈层——一种门控激活,在 FLOPs 固定的情况下白赚一份质量(Shazeer, 2020)。
  • RMSNorm 负责归一化——拥有 LayerNorm 的质量却没有其去均值的开销(Zhang & Sennrich, 2019)——如今通常还会搭配 QK-norm(在 query 和 key 上做 RMSNorm)和一个小的 z-loss,一项小规模研究表明,这两个廉价的稳定器能防止会拖垮大规模训练的 attention-logit 与 output-logit 爆炸(Wortsman et al., 2023)。

共识。RoPE + GQA + SwiGLU + RMSNorm + QK-norm 就是现代的 decoder 模块。MAI-Base-1 是它的一个教科书式实例;这里几乎每一个其他基座模型也都是如此。模块层面剩下的旋钮只有norm 的位置(pre-norm,还是 Gemma 和 OLMo 2 的 pre+post / 重排序 norm)以及注意力被稀疏化的激进程度。

大转变:从稠密到 MoE

这个时代真正的架构故事,是从稠密模型迁移到 mixture-of-experts(MoE):用许多个”专家”FFN 取代单个 FFN,并把每个 token 路由到其中的少数几个,于是总参数量(容量,承载知识)便与激活参数量(每个 token 的计算量)解耦了。大家纷纷照搬的那套设计来自 DeepSeekMoEDai et al., 2024):两个想法,细粒度专家切分(fine-grained expert segmentation)(把 FFN 切成许多个小专家并激活其中更多的——在 FLOPs 固定的情况下带来组合意义上更多的路由选择)和共享专家隔离(shared-expert isolation)(一个始终开启的专家,用来吸收通用知识,好让被路由的专家能够专精)。DeepSeek 的消融实验很值得引用:禁用共享专家会让 loss 飙升,而细粒度模型在你移除其顶部专家时退化得厉害——这说明专家确实实现了专精。

到 2026 年,这已是默认做法。DeepSeek-V3 用 1 个共享 + 256 个路由(8 个激活)专家;Kimi K2 把它推到总计 1.04T / 激活 32B、横跨 384 个专家;Qwen3 去掉了共享专家;MAI-Thinking-1 把高稀疏度的 MoE 层与稠密 FFN 层交错排列(并发现这种搭配在实际耗时上胜过处处采用中等稀疏度);Llama 3 则是显眼的稠密派钉子户,明确选择了一个 405B 的稠密模型,”以最大化训练稳定性”。

现代 decoder 模块与从稠密到 MoE 的转变 图 2. 已经收敛的 decoder 模块(左)以及从稠密到 MoE 的前馈层转变(右):一个 token 被路由到少数几个细粒度专家,外加一个始终开启的共享专家。各家实验室在专家数量、top-k、是否存在共享专家,以及如何交错排列稠密层与 MoE 层上各有不同。

各家仍有分歧之处

有两个维度仍然存在真正的争议,而工程上的努力也正集中在这两处。

注意力效率。GQA 是基线,但前沿则是一大堆缩小 KV cache 或二次方开销的花样:DeepSeek 的 Multi-head Latent Attention(MLA)DeepSeek-V2)把 KV 压缩成一个低秩潜在表示(缓存比 GQA 更小,质量却更好),后来又用 DeepSeek Sparse Attention 加以扩展,使长上下文注意力变为次二次方(DeepSeek-V3.2);Gemma 3 和 MAI 以 5 局部 : 1 全局 的方式交错排列注意力层,于是每六层里只有一层需要付出长程开销;MiniMax-M1 走得最远,用 7:1 的 lightning(线性)注意力 混合方案,让 1M token 上下文——以及廉价的 long-CoT RL——变得负担得起;Hunyuan 把 GQA 与跨层注意力结合,节省约 95% 的 KV;gpt-oss 加入了 attention sinks。MAI 甚至在它的全局层上彻底去掉了位置编码(NoPE),发现这样和 RoPE 一样好却更便宜。到 2026 年,这已成了那场竞赛:稀疏/压缩注意力加上 1M token 上下文 如今已是入场门槛——DeepSeek-V4 推出了 Compressed-Sparse + Heavily-Compressed Attention 混合方案,GLM-5 采用了 DeepSeek 的 DSA(GLM-5.2 还加入了”IndexShare”,把 1M 上下文的 FLOPs 削减约 2.9×),它们追逐的都是同一个目标:让长上下文便宜到足以用来训练 RL,而不只是用来推理部署。

MoE 负载均衡。被路由的专家必须保持均衡,否则训练就会崩溃、GPU 闲置。同一个问题经历了三个时代:最初的辅助损失(auxiliary-loss)(在目标函数里加一个均衡惩罚项——GShard);DeepSeek 的无辅助损失(auxiliary-loss-free)方案(把均衡移出梯度,变成每个专家的路由偏置,质量更好、专精程度也更高,Wang et al., 2024);以及 Qwen 的全局批次聚合(global-batch aggregation)洞见——没人注意到的那个 bug,就是按 micro-batch 来计算均衡损失,这会悄悄毁掉专家的专精(Qiu et al., 2025)。

分歧——在什么范围上做均衡,比怎么均衡更重要。MAI 用的是 GShard 式的损失,但在全局批次上聚合专家的使用频率,并直接给出了结论:”聚合策略远比负载均衡损失的类型更重要。”所以现代的答案与其说关乎损失还是偏置,不如说关乎是否在一个足够多样的 token 群体上做均衡。

最后还有一个值得知道、因为它反复出现的技巧:多 token 预测(multi-token prediction,MTP),即训练模型去预测接下来的若干个 token。DeepSeek-V3 引入它,为的是更密集的训练信号以及白送的约 1.8× 投机解码加速;MiMo 和 Nemotron 也采用了它。最亮眼的优化器故事——Muon 以及 Kimi 的 MuonClip——则属于下一节。

维度 共识 各家分歧之处
位置 RoPE(+ YaRN/ABF scaling) 全局层用 NoPE(MAI);注意力中完全不用(Nemotron 的 Mamba)
注意力 GQA MLA(DeepSeek、Kimi K2);周期性的局部/全局(Gemma 3、MAI 5:1);lightning/linear(MiniMax 7:1);sparse DSA(DeepSeek-V3.2);sinks(gpt-oss);GQA+CLA(Hunyuan)
FFN / Norm SwiGLU;RMSNorm + QK-norm pre 还是 pre+post / 重排序 norm(Gemma、OLMo 2);logit soft-cap(Gemma 2)
稀疏性 细粒度 + 共享专家 MoE 稠密(Llama 3);无共享专家(Qwen3);稠密/MoE 交错(MAI);LatentMoE(Nemotron、MAI);Mamba-MoE(Nemotron)
均衡 全局批次聚合 aux-loss → aux-loss-free bias → global-batch

表 1. 架构已经收敛了约 80%;剩下的旋钮是 MoE 的形态与注意力效率,而这恰恰是每家实验室倾注其聪明才智的地方。

小结。模块已经定型(RoPE/GQA/SwiGLU/RMSNorm/QK-norm);架构上仍在进行的博弈是 mixture-of-experts 的形态廉价的长上下文注意力,在这里有少数几种各不相同的押注(MLA、局部/全局、linear/lightning、sparse)共存。


数据:真正的护城河

如果说架构已经有约 80% 被商品化,那么数据才是模型真正拉开差距的地方——而且并非巧合,这也是每家实验室守口最严的阶段。封闭的报告只给你一个 token 数和一句话(“公开与授权数据的多样化混合”);而完全开放的配方(OLMo 2、Tulu 3、Nemotron)则把整条漏斗都摊开给你看。把它们拼在一起,这条流程出奇地一致:原始爬取数据先经过过滤和去重、规模缩小一个数量级以上,再用一套量化配方重新混合

预训练数据漏斗 图 3. 这条数据漏斗以 MAI-Thinking-1 公开的数字作为具体示例:约 1.2T 爬取页面经过政策与质量过滤,再用多种方式去重,最后重新混合成约 30T 训练 token。每家实验室都在跑某个版本的它;真正的分歧在于各项占比,以及合成数据策略。

抽取被严重低估。 实验室最想要的内容——数学、代码、表格——恰恰是朴素的 HTML 转文本流程最容易弄坏的部分。所以好的报告都会描述定制化的抽取器:MAI 把 MathML 和 LaTeX 归一化为 Markdown,并使用一个只能保留或删除文本片段(绝不添加合成文本)的 LLM;Llama 3 构建了一个自定义解析器,能保留代码/数学结构,甚至会为公式保留图片的 alt 文本;MiMo 和 Llama 都指出,通用过滤器会错误地丢弃富含数学/代码的页面。这种投入的回报体现在那些专门构建的语料上——代码用 StarCoder2 / The Stack v2,数学用 Nemotron-CC-Math——在这些语料里,精心抽取本身就是绝大部分价值所在。

去重是多阶段的,而且是承重环节。 各份报告收敛到了同一套组合:去除样板内容、精确(哈希)去重、MinHash-LSH 模糊去重(相似度约 0.8)、模板化页面的骨架化,以及越来越多地采用沿袭 SemDeDupD4 思路的嵌入/语义去重——它们表明,你可以丢掉约一半的网页数据而不损失质量,而且聪明的重复胜过随机的新鲜 token。MAI 把这些全都跑了一遍,外加一套跨数据集的丢弃次序,以保证同一篇文档不会在不同来源间被重复计入;它明确报告了这条漏斗(1.2T 页面 → 过滤后 794B → 精确去重后 423B → 模糊去重后约 190B)。

过滤与分类把一堆杂乱数据变成可控的语料。 实验室用廉价的分类器给每篇文档打分——用 fastText 和嵌入模型来判断语言、主题、教育价值/层次以及质量——于是语料就变成了一组带标签、可供混合的桶。Essential AI 的 Essential-Web 把这一思路推到了逻辑极致:用一个蒸馏出来的分类法分类器把整个网络标注一遍,之后想要整理任何一个领域,只需用类似 SQL 的过滤查询,而不必每次都训练一个新分类器——这正是 MAI“把语料组织成可解释维度”的理念。

数据混合已经成为一门量化学科。 领域配比(网页、代码、数学、多语种各占多少)极大地决定了能力,而实验室已经不再靠手工设定它了。Data Mixing LawsYe et al., 2024)表明,验证 loss 是混合比例的一个可预测函数——先在小规模的“群跑(swarm)”实验上拟合它,再去优化;RegMix 和 OLMix 把这套做法工程化落地(OLMix 还为不断演化的领域集合加入了复用机制)。MAI 在 3 个规模上、跨 61 种混合配比训练了 183 个模型,以刻画其 Pareto 前沿;Llama 3 通过 scaling-law 实验选定了大致 50% 通用 / 25% 数学与推理 / 17% 代码 / 8% 多语种的配比;MiMo 则刻意采用了一套三阶段混合,把数学+代码的占比一路拉升到约 70%。

开放问题——小规模排名可能会骗人。 廉价的混合搜索背后有一个诱人的假设:排名不变性——如果配比 A 在小规模上胜过配比 B,那么它在大规模上也会胜出。MAI 报告说这个假设被打破了——一个偏代码的混合和一个偏 STEM 的混合,在 5B 与 23B 模型之间交换了名次。也许混合配比需要按它们的scaling 行为来选择,而不是靠一次小规模的对比测试。

整篇文章里最尖锐的分歧就在这里:

分歧——合成数据 vs 人类数据。 MAI 采取了反主流的强硬立场:预训练中不使用任何 LM 生成的合成数据,并主动地去检测并移除爬取数据中的 AI 生成内容(这是一种押注:干净的人类数据可以避开模型崩溃 / 同质化的陷阱)。但相反的一极同样随处可见:Hunyuan-Large 在约 1.5T 合成 token 上训练,这些 token 来自一条四步走的“生成—演化—过滤”流水线;Persona Hub 用十亿量级的 persona 来扩展合成数据的多样性;Qwen 和 Nemotron 则倚重合成改写与蒸馏。MiniMax 取了个折中(和 MAI 一样,在预训练中回避合成数据)。这个问题确实尚无定论,也是最能干净利落地标记出“实验室之间存在分歧”的一刻。

最后,去污染(decontamination)——把评测基准挡在训练数据之外——是潜伏在这一切之下的一场静默危机。随着基准泄漏到 GitHub 和各类爬取数据里,污染会产出好看却虚假的数字。实验室对此的处理还比较粗糙:MAI 移除所有 huggingface 镜像,并普遍施加 20-gram 模糊去重,而且——这也是大家正在收敛到的做法——依赖那些他们有信心不会出现在网上的私有、留出(held-out)基准。我们会在评估一节再回到这个话题。

小结。 数据是分享得最少、却杠杆最高的阶段:一条已经收敛的漏斗(抽取 → 去重 → 分类 → 混合)之上,压着两个悬而未决的问题——该有多信任合成数据,以及你的评测集是否早已泄漏进了训练数据


预训练:scaling、精度与稳定性

有了数据之后,预训练如今已是一门工程学科,围绕三个问题展开:模型多大、训练多久(scaling),用什么数值格式(精度),以及如何让一次长达数月的训练不至于发散(稳定性)。再加上一个两年前几乎还不存在的第四阶段:mid-training。

Scaling:从 Chinchilla 到刻意的过度训练。 2020 年的 Kaplan laws 指出,loss 是参数量、数据量与算力的一个平滑幂律,并建议把预算的大头花在参数上——那是 GopherPaLM 的时代。Chinchilla 纠正了这一点:在固定的训练预算下,应当让参数量和 token 量一起扩展,大约每个参数配 20 个 token。但 20 TPP 是训练算力最优,而非部署最优——一旦你把一个模型摊销到数十亿次推理 token 上,正确的做法就是用一个远超 20 TPP 训练的更小模型。于是整个领域开始刻意地过度训练:Llama-3-8B 见过约 15T token(约 1900 TPP);MAI 把它的主力模型训练在 500–1000 TPP,以得到一个紧凑、推理便宜的结果,同时在接近 Chinchilla 最优的区域里做架构消融。MAI 把这套方法论很好地形式化了:一是scaling ladder(scaling 阶梯)(让一个模型家族在每个激活参数对应固定 token 数下训练),二是 Efficiency-Gain(效率增益)指标(基线要追平某个候选方案还需要多少额外算力)——这样每一处改动都由它的 scaling 曲线来证明其价值,而不是靠单个数据点。

Scaling laws 与过度训练区间 图 4. Chinchilla 主张让参数量与 token 量一起扩展(约每参数 20 个 token),以最便宜的路径达到某个 loss;而推理的经济账则推动实验室选一个更小的模型,并把它一路向右过度训练。实验室在接近算力最优处做消融,但发布的是深处过度训练区间的模型。

共识——为推理而过度训练。 没人再去做算力最优训练了。背后的共同逻辑是:训练只付一次钱,推理却要永远付钱,所以用额外的训练 token 去换一个更小、更便宜的模型。这件事的开放前沿是数据墙——在极端的 TPP 下,你会耗尽独一无二的高质量 token,这又绕回到了合成数据之争。

精度:BF16 → FP8 → FP4。 训练精度一路向下行进,从 FP16 混合精度的时代(Micikevicius et al., 2017),经过 BF16(Zamirai et al., 2020),来到今天的前沿。最显眼的一次效率冲击,是 DeepSeek-V3 用 FP8 训练了一个 671B 模型——使用 FP8 formats(前向 E4M3、反向 E5M2),配合细粒度的 tile/block 级缩放来驯服离群值——总成本约 $5.6M,相对 BF16 的 loss 误差不到 0.25%(这还得益于 stochastic rounding 之类的技巧)。NVIDIA 的 Nemotron 3 更进一步推到了 NVFP4(4-bit),通过逐层的精度规则(让网络最后约 15% 保持高精度)做到了在 25T token 上保持稳定;gpt-oss 则发布了 MXFP4 MoE 权重,让一个 120B 模型能塞进单张 GPU。MAI 同样用 FP8 训练。那些坚守者也很有启发:Llama 3 出于稳健性留在了 BF16——这是一个反复出现的“稳定性优先于效率”的主题。

分歧——优化器的垄断正在裂开(而 Muon 正在胜出)。 十年来,AdamW 一直是唯一的答案。如今 MuonLiu et al., 2025)——它通过一次 Newton–Schulz 迭代把动量更新正交化,并匹配 AdamW 的更新 RMS——号称有约 2× 的算力效率,而各家旗舰都在切换:GLM-4.5/GLM-5 用 Muon,Kimi K2MuonClip(Muon 加上一个 QK-Clip,它会重新缩放 query/key 投影以给注意力 logits 封顶;一次 15.5T token、万亿参数的训练做到了零 loss 尖峰),而到了 2026 年,连 DeepSeek-V42026)——一家长期使用 AdamW 的实验室——也采用了 Muon,“以获得更快的收敛和更好的训练稳定性”。AdamW 仍在训练 MAI、Qwen 和 Llama,但这股“动量”(一语双关)显然站在 Muon 一边——这是多年来最具影响力的优化器转变。

稳定性本身就是一个研究领域。 一次动用上千张 GPU、长达数月的训练,可能会死于 loss 尖峰、发散的 logits,甚至是硬件比特翻转。那些廉价而近乎通用的修法——QK-normz-loss——来自那项小规模代理研究(Wortsman et al., 2023),而完全开放的 OLMo 2 报告则是其余各种技巧的最佳公开清单:一个用于剔除诱发尖峰数据的重复 n-gram 文档过滤器、std-0.02 的初始化、把 AdamW 的 ε 降到 1e-8、重排(pre+post)的 norm、对 embedding 不施加权重衰减——每一项都带有一个对其“尖峰分数(spike score)”的实测下降。MAI 的基础设施层还加入了确定性和静默数据损坏(silent-data-corruption)的处理。这些东西,在一份封闭的 system card 里是看不到的。

Mid-training 是新出现的阶段。 在原始的预训练和后训练之间,实验室如今插入了一个 mid-training 阶段:在高质量(往往是退火过的)数据上,给 STEM/数学/代码加权,并把上下文扩展到 128K–256K。这并不是装点门面:OctoThinker 表明,mid-training 决定了一个 base model 是否具备做 RL 的条件——同一套 RL 配方能让 Qwen 一飞冲天、却让 Llama 停滞不前,而推理密集的 mid-training 能弥合这道鸿沟。MAI 专门跑了一个显式的 mid-training 阶段(给 STEM 加权,把上下文扩到 256K),目的正是“为推理 RL 打下坚实的基础”;DeepSeek、Qwen 和 MiMo 也各有各的版本(MiMo 的三阶段混合、Llama 高质量的“退火”尾段)。

小结。 预训练如今就是工程:用 ladder 加 EG 的方式做 scaling、刻意地过度训练,采用 FP8/FP4 精度,配一套小巧的稳定性工具箱(QK-norm、z-loss、谨慎的初始化),再加上一个悄悄决定了 RL 上限的 mid-training 阶段——与此同时,AdamW 对 Muon 的优化器之争又重新打开了。


后训练(一):SFT、冷启动与蒸馏

预训练和中训练给你一个具备广泛能力的基础模型,但它完全不知道该如何行事——如何遵循指令、在回答之前进行推理,或者使用工具。后训练修复了这一点,它已经固定为一种两幕式结构:一个设定起点的监督阶段,然后是负责爬坡的强化学习(下一节)。本节讲的是起点,整个流程中最深层的理念分歧就发生在这里。

SFT 究竟是做什么用的。 人们很容易认为能力来自监督微调(SFT)。但在现代配方中,它主要是一道就绪门槛:教会模型聊天/工具的格式,并为它注入足够的能力,使其能产出一些好的 rollout,从而让 RL 有信号可以放大。做过头会僵化策略、扼杀 RL 所需的探索;做得不够则 RL 无处发力。指令数据本身也越来越多是合成的——其脉络从 WizardLM’s Evol-Instruct(让一个 LLM 把种子指令改写得更难、更多样)一路延伸到角色驱动的生成与约束分类体系。

“冷启动”与纯 RL 的意外。 这个时代最有影响力的后训练成果是 DeepSeek-R1DeepSeek-AI, 2025)。它的 R1-Zero 变体把 GRPO 直接用在基础模型上,完全没有 SFT,仅靠基于规则的可验证信号给予奖励——推理能力却涌现了:AIME 准确率从 15.6% 攀升到 77.9%,回复长度自行增长,模型还自发地发展出自我检查(著名的”aha moment”,即”wait”一词的频率骤增)。代价是可读性和语言混杂问题,完整版 R1 通过在 RL 之前加入一小段冷启动 SFT(几千条精选的长 CoT 样例)来修复。这个模板——可选的冷启动 → RL → 拒绝采样 → RL——如今已成为标准(Qwen3、Kimi、MiMo、Magistral、MAI 都各自跑了一个版本)。

自我改进是大规模制造 SFT 数据的方法。 当你能验证答案时,就不需要人类来撰写推理轨迹了——模型自己写,你只保留其中好的。这是同一个想法的三种外衣:STaRZelikman et al., 2022)筛选自己生成的、正确的推理依据;LMSIHuang et al., 2022)在没有标签的情况下按自洽性筛选;ReST-EMSingh et al., 2023)则表明”生成→筛选→SFT”这个循环就是期望最大化(EM),并且只要你能检查正确性,它就胜过在人类数据上训练。Llama 3 的拒绝采样和 Tulu 3 的流水线都是其直系后裔,相关的自我纠正引擎(Self-RefineChain-of-Verification)也在喂养同一个循环。

自蒸馏作为存档点。 一个更新颖、更微妙的用途是让长达上千步的 RL 训练保持存活。MAI 大量依赖自蒸馏:定期用 RL 训练自身的 rollout 对一个全新的 checkpoint 做 SFT,然后恢复 RL。他们用它来从原始 prompt 过渡到聊天格式、用它从崩溃中恢复(从崩溃前的 checkpoint 恢复之所以失败,是因为不稳定性早已固化进了权重里),以及用它把已有进展迁移到新的基础模型上。他们的消融实验很值得引用——约 100 万条轨迹就足够,错误答案的轨迹与正确答案的轨迹效果大致相当,而来自一系列后期 checkpoint 的轨迹胜过仅来自单一最终策略的轨迹。该技术在 on-policy self-distillation 中有一个干净的形式化表述(Zhao et al., 2026)。

这一切为什么有效——为什么同一套 RL 对一个基础模型有用、对另一个却无效?因为 RL 主要是放大基础模型已经具备的行为。这项”认知行为”研究(Gandhi et al., 2025)表明,验证、回溯、设定子目标和反向链式推理在 Qwen 中存在,而在 Llama 中基本缺失;并且用这些行为给 Llama 做预热(哪怕是通过错误但结构良好的轨迹),就能让它变得可用 RL 训练。这正是中训练和冷启动之所以重要的深层原因:它们安装了 RL 将要打磨的那些行为。

分歧——继承 vs 学习。 2025 年的主流做法是蒸馏:把 R1 的 80 万条长 CoT 轨迹 SFT 进小的 Qwen 和 Llama 模型,在同等规模下胜过从零开始的大规模 RL——所以 DeepSeek 甚至把 R1 反向蒸馏回 V3 自己的 SFT 数据,而大多数实验室也都会在某处从一个强推理器进行蒸馏。MAI 则把相反的立场当作立身原则:“能力应当被学习,而非被继承”,拒绝从第三方模型蒸馏,因为(他们论证)模仿来的智能缺乏长程爬坡所需的可操控性与鲁棒性。这是该领域最干净的理念分叉:蒸馏更便宜,而且按美元算往往效果更好,但只有 RL 才能探索到任何教师之外的地方。

小结。 SFT/冷启动设定起点并安装好 RL 就绪的行为;验证则把模型变成它自己的数据工厂(STaR/ReST-EM/自蒸馏)。开放问题是继承 vs 学习——是从一个更强的模型蒸馏,还是用 RL 从你自己的基础模型上培育能力。


后训练(二):RL,推理的引擎

这是现代配方的核心,也是 2024–2026 年间变化最大的部分。监督学习只能模仿其数据集中的轨迹;强化学习则让模型生成自己的尝试并由奖励来打分,正是这一点让长程推理和工具使用变得可训练。值得注意的是,这个阶段已经变得如此标准化——同时又如此脆弱

从 PPO 到 GRPO

经典的 RLHF 使用 PPOSchulman et al., 2017),其裁剪式代理目标至今仍是一切方法所继承的基底:最大化以奖励加权的概率比,但把这个比值裁剪到一个信赖域内,使得单次更新不会移动太远。PPO 需要一个价值模型(第二个与策略同等规模的网络)来估计优势的基线——代价高昂,而且当奖励只在一长串思维链的末尾才到来时会很别扭。

GRPOShao et al., 2024,DeepSeekMath)是定义了这个时代的一步:删除价值模型,转而从对同一个 prompt 采样得到的一答案中估计基线。对于一个 prompt \(q\),采样 \(G\) 个回复,用奖励 \(R_i\) 给每个打分,并赋予回复 \(i\) 的每个 token 一个组相对优势 \(\hat A_i = (R_i - \text{mean}(R_{1..G})) / \text{std}(R_{1..G})\)。就是这样——一个蒙特卡洛基线,没有 critic,并且完美契合廉价的可验证奖励。GRPO(或它的近亲)如今是 DeepSeek-R1、Qwen3、MiMo、GLM-4.5、Magistral、Nemotron 和 MAI-Thinking-1 的 RL 主干。

从 PPO 到 GRPO 以及修补浪潮 图 5. PPO 的裁剪式代理目标是基底;GRPO 抛弃价值模型,改用组相对基线;随后一波修补(clip-higher、token-level loss、移除 KL、自适应熵 / 外层裁剪、CISPO)让它在长 CoT 和 off-policy 训练中保持稳定。算法本身很少是贡献所在——稳定化才是。

共识(截至 2025)——算法是大路货,稳定化才是真功夫。 几乎每个实验室都采用了一个 GRPO 家族的、无 critic 的、组相对的、token 级别的目标,配以可验证奖励。DeepSeek-R1 自己的论点说得很直白:推理的关键是”困难的问题、一个可靠的验证器,以及充足的算力”——而不是一个巧妙的损失函数。(正如我们将看到的,长程 agentic RL 正在让这一点变得复杂——其中包括 critic 的部分回归。)

朴素 GRPO 很脆弱:修补浪潮

复现 R1 规模的结果时人们发现,朴素的 GRPO 会崩溃,于是涌现出一波修补——它们几乎都围绕着代理目标如何被归一化和裁剪

  • DAPOYu et al., 2025)是事实上的”GRPO++”:clip-higher(更宽松的上界裁剪,让低概率的探索性 token 得以生长——从而保留熵)、dynamic sampling(丢弃通过率为 0 或 1 的 prompt,它们的组优势为零)、一个 token-level loss(对所有 token 归一化,而非按样本归一化,消除长度偏差),以及过长奖励整形(overlong-reward shaping)。它还丢弃了 KL 项。
  • MagistralMistral, 2025)和 MiMo 印证了这套配方:消除 KL、对损失做长度归一化、clip-higher、过滤零优势的组。
  • BAPOXi et al., 2025)把 clip-higher 推广为一个自适应控制器,用于异步基础设施所造成的 off-policy 情形。
  • MiniMax 的 CISPO 裁剪的是重要性采样权重而非 token 更新,因此任何罕见的反思性 token 都不会被丢弃——比 DAPO 快 2 倍。

分歧——保留还是丢弃 KL 项。 一个真实存在的分裂:对长 CoT 推理丢弃到参考模型的 KL(策略应该远离初始化——DAPO、Magistral、MiMo、MiniMax),但对 RLHF 对齐则保留它(保持靠近一个可信模型——Tulu 3,以及 DeepSeek 的对齐阶段)。DeepSeek-V3.2 则以一个无偏的 KL 估计器和在数学领域里非常弱的 KL 来走钢丝。

长程任务的再思考:GSPO 与 critic 的回归

在 2024–2025 年的大部分时间里,上面这个故事(”GRPO + 几个修补”)确实就是故事的全部。但进入 2026 年,随着各实验室从单轮推理推进到长程 agentic RL——能运行数小时、跨越数十次工具调用的 agent——那个共识开始朝两个有趣的方向裂开,而这正是对整幅图景最重要的更新。

方向一——走向序列级(GSPO)。 GRPO 的重要性比是逐 token的,这在 MoE 模型上噪声很大(一个 token 的专家在 rollout 阶段和训练阶段之间可能不同),并迫使人们用前面提到的”router-replay”技巧。Qwen 的 Group Sequence Policy Optimization (GSPO)Zheng et al., 2025)转而在序列级别(做长度归一化)定义重要性比和裁剪,这样更稳定、与序列级奖励相匹配,而且——值得注意的是——在 MoE 上消除了对路由重放(routing replay)的需求。Qwen 称最新的 Qwen3 模型背后就是 GSPO;它是”保持无 critic,但修正 GRPO 的分析单元”这一思路最干净的答案。

方向二——把 critic 请回来(PPO)。 更剧烈的反转来自 GLM。由 slime 训练的 GLM 系列(GLM-5, Zhipu, 2026)起步于 GRPO(外加一个修正训练/推理不匹配的”IcePop”),但 Zhipu 后来的 GLM-5.2 在其长程阶段明确地放弃了组相对优化,转向基于 critic 的 PPO。原因很具体,值得内化:当一条非常长的 agent 轨迹被压缩(compacted)成多条子轨迹时,同一个 prompt 的不同 rollout 会产出数量不同、长度差异极大的可训练轨迹——于是 GRPO”比较一组干净的、可比的 rollout”这一假设就崩溃了。一个 critic 估计单条 rollout 的 token 级别优势,并不要求各 rollout 在组内可比,这天然地契合压缩(再配上一个 token-level loss 来应对长度不均衡)。在所有人删除价值模型三年之后,价值模型又回来了——为了长程这一情形。

分歧——算法又开始变得任务专用。 干净利落的 2025 年叙事(”GRPO 赢了,算法是大路货”)正在让位于一个 2026 年的叙事:短的、可验证的任务用 GRPO/CISPO;稳定的 MoE RL 用 GSPO;长的、被压缩的、agentic 的轨迹用基于 critic 的 PPO。 GLM-5.2 回归 PPO 是头条,但更深层的要点是轨迹的长度与结构如今驱动着 RL 算法的选择。 注意 DeepSeek-V4(2026)又走了另一条路——保持 GRPO 按领域专家分别训练,再用 on-policy distillation 把这些专家融合起来——而 MiniMax 的 M22026)则围绕长而不均的轨迹构建了一整套 agent 原生的 RL 系统(”Forge”)。不再有单一的默认选项。

熵的问题

最重要的单一失败模式就是熵。熵太少,策略会坍缩成一个确定性的、不探索的模型并饱和;熵太多,它会喷出乱码并导致长度失控。Entropy Mechanism 这项研究表明这二者其实是同一个现象:\(\Delta H \propto -\text{Cov}(\log \pi, \text{advantage})\),而固定的 PPO 裁剪会系统性地移除那些让熵增加的更新 → 单调坍缩,并伴随一个可预测的上限(\(R = -a\,e^{H} + b\))。各种修补的差别在于你在哪里干预:在裁剪处(DAPO 的 clip-higher;BAPO 的自适应边界;MAI 的自适应熵控制——一个积分控制器,把上界裁剪的放松程度朝着目标熵 \(H^\star=0.3\) 微调),在协方差层面(Clip-Cov / KL-Cov 抑制那些特定的高协方差 token),或者通过一个熵奖励(entropy bonus)——而 Entropy-Mechanism 的作者和 MAI 都报告说,这种做法不如自适应方法。

技巧——把熵当作一个控制回路。 MAI 在这里的贡献是把熵当作恒温器来对待:每一步都测量它,并调整裁剪宽度以命中一个设定点,而不是去调一个固定的奖励项。它还在所有分支上加了一个硬性的外层裁剪(\(r_{max}=50\)),以消除 GRPO 那些有意不裁剪的分支可能造成的灾难性梯度尖峰。

奖励设计:为什么可验证奖励胜出

奖励是 RL 成败的关键所在,而它有三个来源,每一个都可被钻空子:

奖励分类体系 图 6. 三种奖励来源在广度与鲁棒性之间做权衡。可验证奖励(数学答案检查器、代码单元测试)覆盖面窄,但难以被操纵;奖励模型和 LLM 裁判覆盖开放式任务,但会被钻空子。像安全这样不可妥协的目标是被门控,而不是被平均进去的。

  • 可验证奖励——数学答案是否匹配、单元测试是否通过——廉价、低噪声,且在奖励层面难以被操纵。这正是数学和代码主导 RL 的原因,也是 Tulu 3 把 RLVR 形式化的原因(”只有在可验证地正确时,策略才获得奖励”,并伴随一个直白的发现:仅用可验证奖励胜过奖励模型 + 可验证奖励——RM 只是徒增可被钻空子的噪声,Lambert et al., 2024)。DeepSeek-R1 正是出于这个原因刻意避开了神经奖励模型。
  • 奖励模型会钻与 prompt 无关的伪特征(长度、markdown、表情符号)的空子;通过反事实增强来训练鲁棒 RM(Liu et al., 2024)会有帮助。
  • LLM-as-judge 对开放式任务很方便,但极易被灾难性地愚弄:单个毫无意义的 token(”Solution”、”:”)就能诱使其给出错误的”正确”判定,发生概率高达约 80%,连前沿的裁判模型也不例外(Zhao et al., 2025)。

于是各实验室会组合奖励,而这个组合方式很重要。MAI 使用一个分解式奖励 \(R = R_{task} + w_{lang}R_{lang} - w_{len}R_{len}\)——加入了一个语言一致性奖励(混合语言的 CoT 会破坏训练的稳定性)和一个难度感知的长度惩罚。而对于不可妥协的目标,它采用门控而非平均:无论质量如何,一个不安全的回复都会拿到最低奖励(其动机来自一个发现:87.8% 的不符合策略的回复在奖励模型上仍然得到 ≥3 的分数——平均的话会让质量把安全给”买”回来)。我们将在对齐一节再谈这一点。

难度 ≠ 可训练性

一个微妙却普遍的筛选标准:哪些 prompt 值得拿来训练?不是最难的——而是可学习的那些。对于一个二元结果奖励而言,学习信号就是奖励的方差 \(\hat p(1-\hat p)\),它在 50% 成功率处取得最大值,并在两个极端处为零:一个策略总是失败或总是解出的 prompt,会在整个组里产生完全相同的奖励,于是组相对优势——以及梯度——恰好为零。

难度不等于可训练性 图 7. 只有当一个 prompt 的结果不确定时,它才有教学价值。学习信号是奖励方差 \(p(1-p)\):”太难”和”太易”因为同一个原因而失效。各实验室会筛选到一个中间区间。

每个实验室都实现了这一点。MAI 把 prompt 筛选到 [0.1, 0.8] 的通过率区间(并用一个提前退出的预过滤来节省 rollout 成本);DAPO 的 dynamic sampling 丢弃 {0,1} 的组;MiMo 则保留一个简单数据池,以便在更多问题被攻克后稳定更新。这与 agentic-RL 世界里驱动环境课程的是同一个想法——在配套文章环境扩展中有详尽探讨。

把 token 花在刀刃上,以及 agentic RL

推理模型会”想太多”,于是各实验室加入了难度感知的长度惩罚——按一个 prompt 被解出的难易程度成比例地惩罚长度,让困难的问题可以思考更久(Xiang et al., 2025;MAI 采用的正是这一做法)。Qwen3 把它作为一个“思考预算”暴露给用户。而前沿是 agentic、多轮的 RL:把同样的 GRPO 目标用在一条由模型与环境交替步骤组成的轨迹上,运行在带有可验证奖励(测试通过、数据库达到目标状态)的沙箱容器内。MAI 的”agentic 爬坡”从 102M 个 GitHub PR 出发构建 SWE 环境,过滤到约 4.87M 个带有关联 issue 的 PR,由其按需沙箱内的 fail-to-pass / pass-to-pass 测试来评分;DeepSeek-V3.2 和 Kimi K2 则合成了数以千计的工具环境。这些环境的供给本身就是一个很深的话题——同样见环境扩展文章

不光鲜但关键的稳定性技巧

最后,是那些上不了摘要、却能让训练收敛的修补:top-p mask replay(在训练时复用采样截断掩码,使训练与推理保持一致——MAI、DeepSeek-V3.2);MoE router replay(MoE 在推理引擎和训练引擎中会挑选不同的专家,这是一个被烤进架构里的 off-policy 缺口——通过重放路由来修复,Ma et al., 2025;DeepSeek 的”Keep Routing”);一个 FP32 LM head 用以修正训练/推理的精度不匹配(MiniMax);异步 RL 的陈旧度(staleness)边界;以及作为数值存档点的自蒸馏(上一节)。大多数实验室都在 verl/HybridFlowOpenRLHF 这类开源 RL 框架之上构建(或将其替换)——MAI 之所以自己写了一个(”Rocket”),正是因为那些框架无法扩展到千卡 GPU 的异步 RL。

维度 共识 各实验室的分歧之处
顺序 SFT/冷启动 → RL 从基础模型纯 RL(R1-Zero、Magistral、MiMo-Zero)vs 先冷启动
算法 GRPO 家族(无 critic、组相对、token 级) GSPO 序列级(Qwen3);面向长程的 critic PPO(GLM-5.2);镜像下降(Kimi);CISPO(MiniMax);仅 DPO(Llama 3、Gemma 2、Hunyuan);PPO(Tulu 3、OLMo 2-7B)
KL 项 长 CoT 丢弃 RLHF 对齐保留
主动控制 自适应裁剪(MAI/DAPO/BAPO)vs Clip-Cov/KL-Cov vs 熵奖励(被否决)
奖励 可验证奖励占主导 + RM + 裁判;门控 vs 加权和;防钻空子的缓解措施
筛选 丢弃 {0,1} 通过率的组 dynamic sampling;难度感知的长度惩罚

表 2. 后训练/RL 配方:高度收敛于一个 GRPO 家族的、可验证奖励的主干,而真正的分歧在于用多少 RL(相对于 DPO)、是否保留 KL,以及如何组合奖励。

分歧——到底用多少 RL? 并非所有人都属于重 RL 阵营。Llama 3、Gemma 2 和 Hunyuan-Large 刻意依赖 DPO / 拒绝采样 / 蒸馏,把 RL 保持得很轻甚至完全不用(Llama 言明的论点是复杂度管理)。DeepSeek、MAI、MiMo 和 MiniMax 则押注另一边,把算力大量投入 RL(DeepSeek-V3.2 如今在 RL 上的花费已超过预训练成本的 10%,并仍在上升)。这——而不是 GRPO 变体的选择——才是真正影响深远的分叉。

小结。 RL 如今是一台标准化却脆弱的引擎:一个 GRPO 家族的、可验证奖励的、token 级别的目标,而真正的功夫在于奖励设计、熵控制、可训练性筛选,以及一大堆训练/推理一致性的技巧。最大的赌注是在多大程度上依赖 RL,以及如何组合奖励。


对齐:有用性、安全与诚实

对齐曾经只是最后才给模型刷上的一层 RLHF 涂装。在 2026 年的配方里,它本身已经成为一组带有专属奖励栈的 RL“攀登”,与推理 RL 并行运行。如今所有人共享的框架是一种待优化的张力,而非一道待套用的过滤器:模型必须同时做到有用(顺从)和安全(有时拒绝),而技艺就在于两者兼得。MAI 将目标表述为“既有用、又始终符合策略的回复”;OpenAI 则把同一目标描述为从拒绝走向safe completion

这里的奖励栈是整条流水线中最异质的,因为这些目标(“这条回复有用吗?诚实吗?风格得体吗?”)难以验证。MAI 的有用性与安全性攀登结合了三种信号:在人类偏好上训练的奖励模型(并辅以反奖励作弊的缓解手段)、AI 评判者(快速、由评分量表引导、易于改换目标),以及在任何约束可检验之处使用的可验证奖励(例如“用不超过 10 个词作答”)——之所以特别采用最后一种,是因为可验证信号更难被作弊,并能稳定其余信号。

技巧——对安全做门控,而非取平均。 这里最具可迁移性的一个想法是:有些目标不可妥协,而加权求和会让一条文笔出色的回复把“不安全”赎回来。MAI 采用字典序 / 门控式聚合——一条不符合安全策略的回复,无论其他分数多高,都只得到最低奖励——其动机来自一份触目惊心的审计:87.8% 不符合策略的回复,在奖励模型上仍然拿到 ≥3 分。 取平均本会奖励它们。

Instruction hierarchy。 生产环境的模型必须按权限对指令排序——system > developer > user > 工具输出——这样,网页中被注入的“忽略你的指令”便无法覆盖系统提示(Wallace et al., 2024,它是 OpenAI 的 Model Spec 与 gpt-oss 的 harmony 格式的基础)。MAI 用对抗性的 system/developer/user 冲突显式训练这一能力;它如今已成为安全 SFT/RL 的标准配料。

从拒绝到 safe-completions。 最清晰的对齐演进来自 OpenAI 的转向,记录在 GPT-5 system card 中:从二元的硬拒绝转向以输出为中心的 safe-completions——在服从于安全策略的前提下最大化有用性。这对于双重用途的问题严格更优:对这类问题,高层次的回答没有问题,但操作层面的细节则不行。gpt-oss 进一步加入了 deliberative alignment(模型在推理时对安全策略进行推理)。MAI 的安全攀登带有“有害 vs 边缘”的分类法,并明确对抗过度拒绝,本质上是换了名字的同一套理念。

诚实与校准。 这是一条更微妙、且多数实验室处理不足的对齐维度:模型应当在知道时作答、在不知道时表达不确定——但不能过度含糊以致毫无用处。MAI 的诚实奖励把回复分成五档(自信-正确 → 自信-错误),对自信-正确给予最高奖励,对自信的幻觉给予最重惩罚,对弃答给予中性分数——明确抑制过度含糊。这关联到一个更深层的问题(长程智能体中的校准、弃答与不确定性),它有自己专门的姊妹文章。

分歧——披露多少。 方法正在趋同,但披露程度并未趋同。OpenAI 的 system cards 是评测/安全方面的参考标杆(Preparedness 类别、红队时长、safe-completions),却几乎不透露任何训练细节;开放配方(OLMo 2、Tulu 3、Magistral)完整披露训练,但安全章节单薄。MAI 居于两者之间,一边借用 OpenAI 的安全话语体系,一边披露多得多的配方细节。

小结。 对齐如今是一个带有自身复合奖励栈的 RL 目标,由有用性↔安全的张力所定义。可迁移的经验是:对不可妥协的目标做门控而非取平均、显式训练 instruction hierarchy、用 safe-completions 取代硬拒绝,并奖励校准过的诚实而非一概含糊其辞。


评测:度量这场攀登

一台“爬山机器”只能攀登它能度量的山,这让评测成为整条流水线中沉默的瓶颈。这些报告揭示了两种不同的评测体制:一种廉价、稳健,用于研发(成千上万个决策);另一种昂贵、公开,用于发布

研发阶段,loss 胜过准确率。 MAI 把这一论点表达得最为有力:对于它用来做预训练和数据配比决策的那套约 40 个基准的测试集,它以 NLL(loss),而非准确率来打分。理由是操作层面的,也是决定性的——准确率评测需要昂贵的自回归生成,而且往往还需要一个评判模型;多选题能力只有在大规模时才会“涌现”,因而在早期噪声很大;MATH 需要精确的 \boxed{} 格式,而 MBPP 会在 \n\r\n 之间栽跟头。NLL 与训练所用的目标完全相同,都是教师强制式的下一 token 目标,因此既廉价又富含信号——Signal-and-Noise 框架也呼应了这一结论。完全开放的实验室出于同样的原因构建了专门的研发测试集(Ai2 的 OLMES)。

发布阶段,则是基准动物园。 公开的成绩单已围绕一组耳熟能详的基准标准化:数学(AIMEMATHHMMT)、科学(GPQAHumanity’s Last Exam)、代码(LiveCodeBenchSWE-bench 以及更难的 SWE-bench ProTerminal-Bench)、知识(MMLU 与 MMLU-Pro)、事实性(SimpleQAFActScore)、长上下文(RULER、LongBench v2Michelangelo)、智能体工具使用(τ²-benchBFCL),以及越来越多的领域测试集,如 HealthBenchMedXpertQA。MAI 报告的头条数字(52.8% SWE-Bench Pro、97.0% AIME 2025)也在此列,其他每家实验室亦然——但跨报告的比较应当谨慎看待,因为评测框架(harness)、提示词与工具访问方式各不相同(这也是“微型”精选子集和考虑不确定性的评分方式逐渐流行的原因之一,例如 tinyBenchmarks)。

开放问题——评测才是真正的瓶颈。 随着模型把旧基准刷到饱和,信号转移到了少数几个困难、且易泄漏的测试集上。诚实的实验室越来越依赖私有的留出基准(MAI 自建测试集;这是对抗污染唯一可靠的防线)、对趋于饱和的测试集做经过验证的重新发布(SimpleQA Verified),以及在训练之后才出现的实时评测(MathArena 对新鲜的竞赛进行打分)。你只能攀登你能度量的东西,而这些量尺的磨损速度,比我们造出新量尺的速度还快。

污染才是底下的危机。 如果一个基准已经泄漏进了训练数据,你的数字就是虚构的——MAI 还指出了一个露馅的症状:污染会让一个“编程”数据集神秘地提升毫不相关的冷知识表现。各种对策(20-gram 模糊去重、按代码仓库/时间排除、移除 HuggingFace 镜像)都不完美,这正是私有基准和实时基准正在成为唯一可信标尺的原因。

超越基准。 由于可自动化的指标会漏掉风格、有用性和安全性,实验室还会加入人工并排对比评测(MAI 对此着重报告),并依赖 LLM-as-judge——而正如我们所见,评判者是可被作弊的,因此其自身的可靠性如今也被基准化了(RewardBench、JudgeBench)。

小结。 用廉价、稳健的 NLL 来做成千上万个研发决策;用公开的基准动物园加上人工评测来对外汇报;并把污染当作一等威胁来对待——私有基准和实时基准才是唯一持久的防线。


安全与红队

对齐训练(见上一节)赋予的是安全的能力;本节讲的是实验室如何在发布前度量并压力测试这种能力。这里的范式很大程度上由 OpenAI 的 Preparedness Framework 奠定,如今被各处效仿:定义一小组被追踪的风险类别(GPT-4o:网络、CBRN、说服、模型自主性;GPT-5 与 gpt-oss:生物/化学、网络、AI 自我改进),分配能力等级,并将部署门控在一个经安全委员会审查的、缓解后阈值之上。Google 的 Frontier Safety Framework 与 Anthropic 的 RSP 是同类;MAI 的安全章节借用了同样的脚手架。

红队是持续进行的,而且越来越自动化。 它贯穿整个研发过程,而非到最后才做。MAI 的对抗性提示来自人类红队,外加自动化攻击框架——PyRIT——以及各种越狱方法,如 PAP(说服)、Crescendo(多轮升级)、Tree of Attacks,乃至多语种越狱。OpenAI 以小时数和测试者人数来报告红队工作(GPT-5:5,000+ 小时、400+ 名测试者)。Llama 3 在 LLM 之外还附带了一个真正的防护模型 Llama Guard——把安全作为一个系统,而不只是一个模型。

危险能力评测瞄准灾难性的尾部风险:生物武器能力提升(反复出现的五阶段生物风险分类法)、网络攻击(CyberSecEval、CTF 挑战)、危险知识(WMDP,并搭配遗忘学习 unlearning)、源自法规的风险测试集(AIR-Bench),以及专门的前沿危险能力评测。gpt-oss 还加入了一套专门针对开放权重的方法学:因为任何人都能微调一个已发布的模型,OpenAI 构建了一个经过对抗性微调的“最坏情况”版本(只追求有用的 RL + 能力最大化),并让外部团队确认它仍未越过 High 阈值——这正在成为负责任地发布开放权重模型的范式模板。

推理时代带来了一个新的安全杠杆:CoT monitoring。 由于推理模型以可读的思维链进行思考,你可以监控这段推理是否存在欺骗或不当行为——GPT-5 报告称,借助 CoT 监控,被标记的欺骗率减半了(4.8%→2.1%)。但有一个该领域正在积极担忧的陷阱:如果你针对 CoT 监控器进行训练,模型学到的会是混淆自己的推理,而非真正改正行为(Baker et al., 2025Guan et al., 2025)。这使得“保持思维链可被监控”成为每一家训练 long-CoT 模型的实验室都要面对的现实设计约束——包括 MAI、DeepSeek、Magistral。

趋势——安全左移。 纵观这些报告,安全不再是一道发布关卡;它被编织进整条流水线:PII/CBRN 数据过滤(预训练)、奖励栈与 instruction hierarchy(后训练)、CoT 监控(推理),以及红队 + preparedness(发布)。

小结。 安全已成为一个贯穿整条流水线的过程,并拥有一套共享词汇(preparedness 类别、自动化红队、危险能力评测),而推理时代又加入了 CoT monitoring——它有用,但前提是我们不去训练模型隐藏自己的想法。



收敛的配方

从各个阶段往后退一步,本文开头的论断依然成立:到 2026 年,存在一套配方,而这些报告都是它的变体。下面用一口气讲完整条流水线——整理并去重“人类 + 合成”数据,并通过 scaling-law 预测来选择配比;在一个按“每参数 token 数”排布的阶梯上、以刻意过训练的方式、用 FP8 预训练一个 RoPE/GQA/SwiGLU/RMSNorm 的 MoE;在推理密集的数据上做 mid-training 并扩展上下文;用 SFT/冷启动来植入行为与格式;运行 GRPO 系的 RL,配以可验证奖励、熵控制和可训练性筛选;用门控的奖励栈和 instruction hierarchy 来做对齐;以廉价的 NLL 加上防污染的基准动物园来度量;并对照一套 preparedness framework 进行红队。 一旦你把这句话内化于心,下表中的每一份报告读起来都像是在做填空题。

模型 实验室 激活/总参数 稀疏度 预训练 优化器 RL / 后训练 数据立场
MAI-Thinking-1 Microsoft AI 35B / ~1T 交错式 MoE 30T AdamW GRPO + 自适应熵;3 次攀登 → 合并 仅人类数据
DeepSeek-V3 DeepSeek 37B / 671B MoE + MLA 14.8T (FP8) AdamW GRPO;将 R1 蒸馏进 SFT 合成 + 人类
DeepSeek-R1 DeepSeek 37B / 671B MoE + MLA (V3) 纯 RL → 多阶段;向外蒸馏
DeepSeek-V4 DeepSeek 49B / 1.6T MoE + CSA/HCA,1M 上下文 32T+ Muon 按专家分别 GRPO → on-policy 蒸馏 合成 + 人类
Qwen3 Alibaba 22B / 235B MoE(无共享专家) 36T AdamW GSPO + 强→弱蒸馏;思考预算 偏重合成
Kimi K2 Moonshot 32B / 1.04T MoE + MLA 15.5T MuonClip 镜像下降 RL;智能体化 改写式合成
GLM-4.5 Zhipu 32B / 355B MoE 23T Muon GRPO(无 KL)+ 专家迭代
GLM-5 / 5.2 Zhipu 40B / 744B MoE + DSA,1M 上下文 28.5T Muon GRPO+IcePop → 带 critic 的 PPO(长程)
Llama 3 Meta 405B 稠密 15.6T (BF16) AdamW SFT+RS+DPO(无 PPO) 代码/数学用合成
Gemma 3 Google 27B 稠密(多模态) 14T 蒸馏 + 轻量 RLVR 教师模型蒸馏
MiMo-7B Xiaomi 7B 稠密 25T AdamW 从基座起重度 GRPO 推理密集型合成
Hunyuan-Large Tencent 52B / 389B MoE 7T(约 1.5T 合成) AdamW SFT + DPO 偏重合成
MiniMax-M1 / M2 MiniMax 10–46B / 0.23–0.46T MoE + lightning-attn +7.5T AdamW CISPO / Forge 智能体 RL 人类(预训练无合成)
OLMo 2 / Tulu 3 Ai2 7–32B 稠密 4–6T AdamW SFT→DPO→RLVR 完全开放
Nemotron 3 NVIDIA 3B+ Mamba-MoE 10T+ (NVFP4) 多环境 GRPO 开放

表 3. 一套配方,多种填法。横向逐列读下来,共识(MoE + 现代解码器块 + SFT→RL + 可验证奖励)一目了然——为数不多的几处真正的押注也同样清晰(稠密 vs MoE、AdamW vs Muon、GRPO vs GSPO vs PPO、重 RL vs DPO、合成 vs 人类)。2026 年的几行(DeepSeek-V4、GLM-5/5.2、MiniMax-M2)显示出前沿正在朝着 1M 上下文、Muon 和长程智能体 RL 移动。

大家一致认同的部分(八点共识):现代解码器块;细粒度 + 共享专家的 MoE,并在全局批次上做负载均衡;重度去重 + scaling-law 数据配比 + 一段 mid-training 收尾;刻意过训练;SFT/冷启动 → RL;带熵控制和可训练性筛选的 GRPO 系可验证奖励 RL;在某处包含蒸馏的多阶段后训练;以及安全奖励栈 + preparedness/红队流程。

真正的押注所在(值得争论的分歧):合成 vs 人类数据继承(蒸馏) vs 习得(RL)AdamW vs Muon(截至 2026 年,Muon 正决定性地胜出——Kimi、GLM,如今还有 DeepSeek-V4);aux-loss vs aux-loss-free vs 全局批次负载均衡稠密 vs MoE vs 混合用多少 RL vs DPORL 算法本身——GRPO vs GSPO(序列级) vs 为长程智能体回归带 critic 的 PPO(GLM-5.2),这是最新、也最具说明性的转变;保留 vs 丢弃 KL 项拒绝 vs safe-completions;以及披露多少(完全开放的配方 vs 只有基准表格的卡片)。

小结。 深读一份报告,你就等于读了全部——只差大约九个旋钮的不同。有趣的分歧(很可能还有下一步进展)所在之处,正是这些旋钮,而非那副骨架。


开放挑战

这套配方是有效的,但它若干承重的假设,其实比排行榜数字所暗示的更为脆弱。下面是我会投以怀疑目光的几处。

验证是 RL 的天花板。 整个 RL 阶段都建立在你能信任的奖励之上,而我们已经看到:奖励模型会利用表面伪特征作弊,LLM 评判者会败给单 token 的“万能钥匙”。这正是 RL 在数学和代码上效果如此之好、在其他几乎所有地方效果如此之差的原因——那两个领域拥有廉价而稳健的验证器。把可靠的验证扩展到真正不可验证的目标(“这份分析好不好?”),是横亘在其他大多数问题之下的开放难题。

数据墙撞上合成数据的两难。 刻意的过训练和越来越大的 token 预算,正撞上高质量人类文本的有限供给。逃生口是合成数据——但这恰恰是 MAI 拒绝的押注,它对在 AI 生成内容上训练发出了警告。合成数据究竟是乘数还是慢性毒药,尚无定论,而诚实的答案大概是“看用来做什么”(对多样性和可验证领域很好,作为整体性的预训练替代品则有风险)。

污染的诚实问题。 随着基准趋于饱和并发生泄漏,报告出虚高的数字变得越来越容易——甚至是无意为之。这个领域大多是在假定已经做了去污染,而非证明之;私有基准和实时基准有所帮助,但跨实验室的可比性正在悄然瓦解。

千步 RL 的成本与脆弱性——如今算法问题又被重新打开。 要维持一条对数线性的 RL 攀登曲线,需要一整套稳定器(熵控制、router replay、top-p 掩码 replay、自蒸馏存档点、异步基础设施)以及大量算力,而这部分算力如今在总训练成本中所占的比例正越来越大。而就在 GRPO 看起来已是尘埃落定的默认选项时,长程智能体 RL 又重新打开了算法之问:轨迹的“compaction(压实)”会产生长度不一的子轨迹,破坏了组内相对比较,这促使 Qwen 转向序列级的 GSPO,也让 GLM-5.2 退回到带 critic 的 PPO。这个领域会重新收敛,还是 RL 会永久地变得与任务相关(短的可验证任务用 GRPO/GSPO,长的智能体任务用 critic)——这是真正开放的问题,也是 2026 年最活跃的训练之争。这其中很大一部分仍是手艺,而非科学。

可监控性 vs 能力。 CoT monitoring 是推理时代为数不多的安全成果之一——但它只有在我们针对它做优化时才有效。让思维链既忠实、可读,又同时把它训练得高效,是一个尚未解决的张力。

从经济角度看继承 vs 习得。 从一个强推理者蒸馏,比从零开始做 RL 更便宜,而且按每美元算往往更好——R1 已经表明蒸馏可以击败小模型的 RL。如果这个结论成立,这个领域就会把能力集中在少数几个前沿基座模型上,其余所有人都去做蒸馏。MAI“习得,而非继承”的押注,部分是在赌:就可操控性和稳健性而言,这条路是死胡同。究竟谁对,我们还不知道。

值得关注的前沿: 真正智能体化的长程 RL,以及喂养它的那些环境环境扩展这一供给侧);为跨越许多步骤行动的智能体提供校准过的诚实与弃答;以及 Muon 和低于 4-bit 的精度是否会把成本曲线压低到足以改变“究竟谁能在前沿做训练”的程度。

小结。 诚实的成绩单是:验证、数据墙/合成数据问题,以及污染,这三处是当今前沿训练结果最可能言过其实的地方——而它们恰恰是下一轮报告必须直面的地方。


致谢 / 来源:标注「图片来源」的图复制自所引论文;其余图均为原创。


如何引用

Zhang, Jiaxin.(2026 年 6 月)。How Frontier Labs Train Large Language Models。Jiaxin Zhang’s Blog. https://jxzhangjhu.github.io/blog/2026/how-frontier-labs-train-llms/

@article{zhang2026frontierllmtraining,
  title   = "How Frontier Labs Train Large Language Models",
  author  = "Zhang, Jiaxin",
  journal = "Jiaxin Zhang's Blog",
  year    = "2026",
  month   = "Jun",
  url     = "https://jxzhangjhu.github.io/blog/2026/how-frontier-labs-train-llms/"
}


References

[1] Amro Abbas, et al. “SemDeDup: Data-efficient learning at web-scale through semantic deduplication.” arXiv:2303.09540, 2023.

[2] Joshua Ainslie, et al. “GQA: Training Generalized Multi-Query Transformer Models from Multi-Head Checkpoints.” arXiv:2305.13245, 2023.

[3] Rahul K. Arora, et al. “HealthBench: Evaluating Large Language Models Towards Improved Human Health.” arXiv:2505.08775, 2025.

[4] Yushi Bai, et al. “LongBench v2: Towards Deeper Understanding and Reasoning on Realistic Long-context Multitasks.” arXiv:2412.15204, 2024.

[5] Bowen Baker, et al. “Monitoring Reasoning Models for Misbehavior and the Risks of Promoting Obfuscation.” arXiv:2503.11926, 2025.

[6] Mayee F. Chen, et al. “Olmix: A Framework for Data Mixing Throughout LM Development.” arXiv:2602.12237, 2026.

[7] Aakanksha Chowdhery, et al. “PaLM: Scaling Language Modeling with Pathways.” arXiv:2204.02311, 2022.

[8] Ganqu Cui, et al. “The Entropy Mechanism of Reinforcement Learning for Reasoning Language Models.” arXiv:2505.22617, 2025.

[9] Damai Dai, et al. “DeepSeekMoE: Towards Ultimate Expert Specialization in Mixture-of-Experts Language Models.” arXiv:2401.06066, 2024.

[10] DeepSeek-AI, et al. “DeepSeek-V2: A Strong, Economical, and Efficient Mixture-of-Experts Language Model.” arXiv:2405.04434, 2024.

[11] DeepSeek-AI, et al. “DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning.” arXiv:2501.12948, 2025.

[12] DeepSeek-AI, et al. “DeepSeek-V3 Technical Report.” arXiv:2412.19437, 2024.

[13] DeepSeek-AI, et al. “DeepSeek-V3.2: Pushing the Frontier of Open Large Language Models.” arXiv:2512.02556, 2025.

[14] DeepSeek-AI, et al. “DeepSeek-V4: Towards Highly Efficient Million-Token Context Intelligence.” arXiv:2606.19348, 2026.

[15] Jasper Dekoninck, et al. “Beyond Benchmarks: MathArena as an Evaluation Platform for Mathematics with LLMs.” arXiv:2605.00674, 2026.

[16] Yue Deng, et al. “Multilingual Jailbreak Challenges in Large Language Models.” arXiv:2310.06474, 2023.

[17] Xiang Deng, et al. “SWE-Bench Pro: Can AI Agents Solve Long-Horizon Software Engineering Tasks?.” arXiv:2509.16941, 2025.

[18] Shehzaad Dhuliawala, et al. “Chain-of-Verification Reduces Hallucination in Large Language Models.” arXiv:2309.11495, 2023.

[19] Essential AI, et al. “Essential-Web v1.0: 24T tokens of organized web data.” arXiv:2506.14111, 2025.

[20] Kanishk Gandhi, et al. “Cognitive Behaviors that Enable Self-Improving Reasoners, or, Four Habits of Highly Effective STaRs.” arXiv:2503.01307, 2025.

[21] Tao Ge, et al. “Scaling Synthetic Data Creation with 1,000,000,000 Personas.” arXiv:2406.20094, 2024.

[22] Gemma Team, et al. “Gemma 3 Technical Report.” arXiv:2503.19786, 2025.

[23] GLM-4. 5 Team, et al. “GLM-4.5: Agentic, Reasoning, and Coding (ARC) Foundation Models.” arXiv:2508.06471, 2025.

[24] GLM-5-Team, et al. “GLM-5: from Vibe Coding to Agentic Engineering.” arXiv:2602.15763, 2026.

[25] GLM-5.2 Team (Zhipu AI). “GLM-5.2: Built for Long-Horizon Tasks.” Zhipu AI / Z.ai, 2026.

[26] Aaron Grattafiori, et al. “The Llama 3 Herd of Models.” arXiv:2407.21783, 2024.

[27] Melody Y. Guan, et al. “Monitoring Monitorability.” arXiv:2512.18311, 2025.

[28] Lukas Haas, et al. “SimpleQA Verified: A Reliable Factuality Benchmark to Measure Parametric Knowledge.” arXiv:2509.07968, 2025.

[29] David Heineman, et al. “Signal and Noise: A Framework for Reducing Uncertainty in Language Model Evaluation.” arXiv:2508.13144, 2025.

[30] Dan Hendrycks, et al. “Measuring Mathematical Problem Solving With the MATH Dataset.” arXiv:2103.03874, 2021.

[31] Dan Hendrycks, et al. “Measuring Massive Multitask Language Understanding.” arXiv:2009.03300, 2020.

[32] Jordan Hoffmann, et al. “Training Compute-Optimal Large Language Models.” arXiv:2203.15556, 2022.

[33] Jian Hu, et al. “OpenRLHF: An Easy-to-use, Scalable and High-performance RLHF Framework.” arXiv:2405.11143, 2024.

[34] Jiaxin Huang, et al. “Large Language Models Can Self-Improve.” arXiv:2210.11610, 2022.

[35] Naman Jain, et al. “LiveCodeBench: Holistic and Contamination Free Evaluation of Large Language Models for Code.” arXiv:2403.07974, 2024.

[36] Jared Kaplan, et al. “Scaling Laws for Neural Language Models.” arXiv:2001.08361, 2020.

[37] Kimi Team, et al. “Kimi K2: Open Agentic Intelligence.” arXiv:2507.20534, 2025.

[38] Nathan Lambert, et al. “Tulu 3: Pushing Frontiers in Open Language Model Post-Training.” arXiv:2411.15124, 2024.

[39] Dmitry Lepikhin, et al. “GShard: Scaling Giant Models with Conditional Computation and Automatic Sharding.” arXiv:2006.16668, 2020.

[40] Nathaniel Li, et al. “The WMDP Benchmark: Measuring and Reducing Malicious Use With Unlearning.” arXiv:2403.03218, 2024.

[41] Jingyuan Liu, et al. “Muon is Scalable for LLM Training.” arXiv:2502.16982, 2025.

[42] Tianqi Liu, et al. “RRM: Robust Reward Model Training Mitigates Reward Hacking.” arXiv:2409.13156, 2024.

[43] LLM-Core Xiaomi, et al. “MiMo: Unlocking the Reasoning Potential of Language Model – From Pretraining to Posttraining.” arXiv:2505.07608, 2025.

[44] Anton Lozhkov, et al. “StarCoder 2 and The Stack v2: The Next Generation.” arXiv:2402.19173, 2024.

[45] Wenhan Ma, et al. “Stabilizing MoE Reinforcement Learning by Aligning Training and Inference Routers.” arXiv:2510.11370, 2025.

[46] Aman Madaan, et al. “Self-Refine: Iterative Refinement with Self-Feedback.” arXiv:2303.17651, 2023.

[47] Rabeeh Karimi Mahabadi, et al. “Nemotron-CC-Math: A 133 Billion-Token-Scale High Quality Math Pretraining Dataset.” arXiv:2508.15096, 2025.

[48] Anay Mehrotra, et al. “Tree of Attacks: Jailbreaking Black-Box LLMs Automatically.” arXiv:2312.02119, 2023.

[49] Mike A. Merrill, et al. “Terminal-Bench: Benchmarking Agents on Hard, Realistic Tasks in Command Line Interfaces.” arXiv:2601.11868, 2026.

[50] Paulius Micikevicius, et al. “FP8 Formats for Deep Learning.” arXiv:2209.05433, 2022.

[51] Paulius Micikevicius, et al. “Mixed Precision Training.” arXiv:1710.03740, 2017.

[52] The Microsoft AI Team. “MAI-Thinking-1: Building a Hill-Climbing Machine.” Microsoft AI, 2026.

[53] Sewon Min, et al. “FActScore: Fine-grained Atomic Evaluation of Factual Precision in Long Form Text Generation.” arXiv:2305.14251, 2023.

[54] MiniMax, et al. “MiniMax-M1: Scaling Test-Time Compute Efficiently with Lightning Attention.” arXiv:2506.13585, 2025.

[55] MiniMax, et al. “The MiniMax-M2 Series: Mini Activations Unleashing Max Real-World Intelligence.” arXiv:2605.26494, 2026.

[56] Mistral-AI, et al. “Magistral.” arXiv:2506.10910, 2025.

[57] Gary D. Lopez Munoz, et al. “PyRIT: A Framework for Security Risk Identification and Red Teaming in Generative AI System.” arXiv:2410.02828, 2024.

[58] NVIDIA, et al. “NVIDIA Nemotron 3: Efficient and Open Intelligence.” arXiv:2512.20856, 2025.

[59] Kaan Ozkara, et al. “Stochastic Rounding for LLM Training: Theory and Practice.” arXiv:2502.20566, 2025.

[60] Long Phan, et al. “Humanity’s Last Exam.” arXiv:2501.14249, 2025.

[61] Mary Phuong, et al. “Evaluating Frontier Models for Dangerous Capabilities.” arXiv:2403.13793, 2024.

[62] Felipe Maia Polo, et al. “tinyBenchmarks: evaluating LLMs with fewer examples.” arXiv:2402.14992, 2024.

[63] Zihan Qiu, et al. “Demons in the Detail: On Implementing Load Balancing Loss for Training Specialized Mixture-of-Expert Models.” arXiv:2501.11873, 2025.

[64] Jack W. Rae, et al. “Scaling Language Models: Methods, Analysis & Insights from Training Gopher.” arXiv:2112.11446, 2021.

[65] David Rein, et al. “GPQA: A Graduate-Level Google-Proof Q&A Benchmark.” arXiv:2311.12022, 2023.

[66] Mark Russinovich, et al. “Great, Now Write an Article About That: The Crescendo Multi-Turn LLM Jailbreak Attack.” arXiv:2404.01833, 2024.

[67] John Schulman, et al. “Proximal Policy Optimization Algorithms.” arXiv:1707.06347, 2017.

[68] Zhihong Shao, et al. “DeepSeekMath: Pushing the Limits of Mathematical Reasoning in Open Language Models.” arXiv:2402.03300, 2024.

[69] Noam Shazeer. “GLU Variants Improve Transformer.” arXiv:2002.05202, 2020.

[70] Guangming Sheng, et al. “HybridFlow: A Flexible and Efficient RLHF Framework.” arXiv:2409.19256, 2024.

[71] Avi Singh, et al. “Beyond Human Data: Scaling Self-Training for Problem-Solving with Language Models.” arXiv:2312.06585, 2023.

[72] Aaditya Singh, et al. “OpenAI GPT-5 System Card.” arXiv:2601.03267, 2025.

[73] Jianlin Su, et al. “RoFormer: Enhanced Transformer with Rotary Position Embedding.” arXiv:2104.09864, 2021.

[74] Xingwu Sun, et al. “Hunyuan-Large: An Open-Source MoE Model with 52 Billion Activated Parameters by Tencent.” arXiv:2411.02265, 2024.

[75] Team OLMo, et al. “2 OLMo 2 Furious.” arXiv:2501.00656, 2024.

[76] Kushal Tirumala, et al. “D4: Improving LLM Pretraining via Document De-Duplication and Diversification.” arXiv:2308.12284, 2023.

[77] Kiran Vodrahalli, et al. “Michelangelo: Long Context Evaluations Beyond Haystacks via Latent Structure Queries.” arXiv:2409.12640, 2024.

[78] Eric Wallace, et al. “The Instruction Hierarchy: Training LLMs to Prioritize Privileged Instructions.” arXiv:2404.13208, 2024.

[79] Shengye Wan, et al. “CYBERSECEVAL 3: Advancing the Evaluation of Cybersecurity Risks and Capabilities in Large Language Models.” arXiv:2408.01605, 2024.

[80] Zengzhi Wang, et al. “OctoThinker: Mid-training Incentivizes Reinforcement Learning Scaling.” arXiv:2506.20512, 2025.

[81] Lean Wang, et al. “Auxiliary-Loss-Free Load Balancing Strategy for Mixture-of-Experts.” arXiv:2408.15664, 2024.

[82] Jason Wei, et al. “Measuring short-form factuality in large language models.” arXiv:2411.04368, 2024.

[83] Mitchell Wortsman, et al. “Small-scale proxies for large-scale Transformer training instabilities.” arXiv:2309.14322, 2023.

[84] Zhiheng Xi, et al. “BAPO: Stabilizing Off-Policy Reinforcement Learning for LLMs via Balanced Policy Optimization with Adaptive Clipping.” arXiv:2510.18927, 2025.

[85] Violet Xiang, et al. “Just Enough Thinking: Efficient Reasoning with Adaptive Length Penalties Reinforcement Learning.” arXiv:2506.05256, 2025.

[86] Can Xu, et al. “WizardLM: Empowering large pre-trained language models to follow complex instructions.” arXiv:2304.12244, 2023.

[87] An Yang, et al. “Qwen3 Technical Report.” arXiv:2505.09388, 2025.

[88] Jiasheng Ye, et al. “Data Mixing Laws: Optimizing Data Mixtures by Predicting Language Modeling Performance.” arXiv:2403.16952, 2024.

[89] Qiying Yu, et al. “DAPO: An Open-Source LLM Reinforcement Learning System at Scale.” arXiv:2503.14476, 2025.

[90] Pedram Zamirai, et al. “Revisiting BFloat16 Training.” arXiv:2010.06192, 2020.

[91] Eric Zelikman, et al. “STaR: Bootstrapping Reasoning With Reasoning.” arXiv:2203.14465, 2022.

[92] Yi Zeng, et al. “How Johnny Can Persuade LLMs to Jailbreak Them: Rethinking Persuasion to Challenge AI Safety by Humanizing LLMs.” arXiv:2401.06373, 2024.

[93] Yi Zeng, et al. “AIR-Bench 2024: A Safety Benchmark Based on Risk Categories from Regulations and Policies.” arXiv:2407.17436, 2024.

[94] Biao Zhang and Rico Sennrich. “Root Mean Square Layer Normalization.” arXiv:1910.07467, 2019.

[95] Yulai Zhao, et al. “One Token to Fool LLM-as-a-Judge.” arXiv:2507.08794, 2025.

[96] Siyan Zhao, et al. “Self-Distilled Reasoner: On-Policy Self-Distillation for Large Language Models.” arXiv:2601.18734, 2026.

[97] Chujie Zheng, et al. “Group Sequence Policy Optimization.” arXiv:2507.18071, 2025.

[98] Yuxin Zuo, et al. “MedXpertQA: Benchmarking Expert-Level Medical Reasoning and Understanding.” arXiv:2501.18362, 2025.