酸钙地板-仅靠自身就能增强推演？SePT 给出简洁于线自操练范式 LLM

此里之 baseline 并非默认采样设置下直接评测之基座模型，而为未做后操练、但于推演阶段经过 temperature sweep 并取最佳结局之强基线。

模型之一般本领会不会因只于数学自生成轨迹上续操练而受损。

Δ 表示 DSR 相待 OTM 之变化，阴影标出 DSR 至少高出 OTM 2.0 分之情形。

结局基本为几乎不掉：根基模型分别为 23.4/47.5/29.9/41.4/32.1，SePT 为 23.6/47.3/30.6/41.5/32.2。

下面先看此种于线轮回自操练到底带来之多少提升。

为什么此件事重要。

TensorFlow。

SePT 与 SePT (Offline) 于 Qwen2.5-Math-7B 上之较量，括号中之数值表示相待 baseline 之变化。

SePT 中之于线自生成数据若进一步与 RLVR 法门（ GRPO）较量，可看到：自操练法门SePT 已能够取得与 GRPO 较为接近之结局，尤其为于OTM数据集上。

数学推演上之结局：SePT vs RLVR。

为之。

改造升级。

Pass@1、Pass@8、Pass@32 以及 AVG 于基座模型上随采样温度变化之结局。

此一设计之枢纽可概括为：温度解耦、标准SFT操练，最新模型自生成数据。

Performance Testing。

SePT 有之极其简洁之自操练框架设计，可概括为以下三名步骤： SePT 算法实在流程如流程图所示，SePT 之核心极其简洁：当前模型先生成解答，再用此些解答做标准 SFT，随后由更新后之模型重新生成下一轮操练数据。

以 Qwen2.5-Math-7B 为例，若用 temperature coupling，Pass@1/Pass@8/Pass@32/AVG 只有 19.3/50.1/64.3/44.6，Pass@1 甚至低于 baseline；而采用 decoupling 后，四项指标可提升到 39.5/57.7/67.9/55.0。

若不依赖此些外部信号，只用模型自身生成之解答进行自操练，为否仍然能够提升推演本领。

此些结局说明，于本文之较量设置下，SePT 对操练题集选择表现出更小之波动，而 GRPO 于 DSR 上之增益更明显。

本项研讨为与上海交通大学赵磊老师、香港中文大学苏文藻老师协作，并于香港中文大学（深圳）孙若愚老师与李肖老师之共同指导下成。

此一设计之枢纽可概括为：温度解耦、标准SFT操练，最新模型自生成数据。

于 DeepSeek-Math-7B-Instruct 上，同样之差距分别为 0.4（33.0 vs. 33.4）与 1.7（33.9 vs. 35.6）。

本文于 Qwen2.5-Math-7B 上之一组 general-domain benchmark正面回答之此一疑难，测试基准包括 IFEval、BBH、GPQA、MuSR 与 MMLU-Pro。

江新林。

甚至于 Qwen2.5-Math-7B 之 OTM 设置下，SePT 之 Pass@1 还略高于 GRPO（40.8 vs. 39.5）。

主结局如图所示。

经过 SePT 自操练后，于 6 名数学基准测试集平均后之 Pass@1、Pass@8、Pass@32 与 AVG 上均有明显提升。

论文标题：A Model Can Help Itself: Reward-Free Self-Training for LLM Reasoning论文：https://arxiv.org/pdf/2510.18814代码：https://github.com/ElementQi/SePT 于推演后操练里，多数法门仍依赖奖模型、验证器或额外教师信号。

SePT 中之温度解耦本文第一作者李梦琦为香港中文大学（深圳）计算机格致专业博士生。

SePT之于线自操练轮回示意：样本以采样温度 τ_s 生成，操练阶段采用标准 SFT；下一轮操练数据由更新后之模型生成。

Qwen2.5-Math-7B 基座模型及其 SePT、GRPO 操练版本于通用领域之评测结局。

两套操练题集规模相近。

风言风语。

括号内数值表示法门值与基准值之差（Method−Baseline）。

Pass@1、Pass@8、Pass@32 以及 AVG 于基座模型上随采样温度变化之结局。

本文之定理一给出之一名直观之理论论证：自操练为否会损害模型通用本领。

结合表中之结局，于 Qwen2.5-Math-7B 上，用 OTM 时，SePT 与 GRPO 之 AVG 分别为 55.2 与 56.6，差距只有 1.4；而于 DSR 上，此一差距扩为 4.1（55.0 vs. 59.1）。

数学推演上之结局：SePT vs Baseline 此一点于实验上也被直接验证之。

SePT（Self-evolving Post-Training）给出认可解答，简洁之自操练法门，可于数学推演差事准确率直升10名点。

也就为说，SePT 里“低温生成 + 标准 SFT”对于数学推演之提升并不为一名阅历 trick，而为理论与实验皆支之重要设计。

于 Qwen2.5-Math-7B 上，6 名数学基准测试集平均后之 Pass@1、Pass@8、Pass@32 与 AVG：SePT 于各项指标上均明显高于上述 baseline。

以 Qwen2.5-Math-7B 为例，SePT (Offline) 之 AVG 为 45.5，而于线版本之 SePT 可达到 55.0。

本文进一步通过消融实验验证之此一设计之重要性：若将“由最新模型逐轮生成下一轮操练数据”改为固定数据操练，性能会明显降。

OpenThoughts-Math（OTM）与 DeepScaleR（DSR）于 Qwen2.5-Math-7B 与 DeepSeek-Math-7B-Instruct 上之平均基准较量。

此表明SePT自操练法门不会明显损害模型之通用本领。

拼多多。

Qwen2.5-Math-7B 于温度耦合与解耦预案下之对比。

也就为说，SePT 于 IFEval、GPQA、MuSR、MMLU-Pro 上皆有轻微提升，BBH 基本不变；GRPO 也呈现之类似模式。

上一篇：华夏移动集采6万台效劳器，ARM办理器占比升至65% 下一篇：逸璟科技发布新一代灵巧脸「灵智5号」：开启者形机器者"命感交互"新时代

仅靠自身就能增强推演？SePT 给出简洁于线自操练范式 LLM - 推理芯片

相关推荐