当前位置:文章 > 列表 > 正文

仅靠自身就能增强推演?SePT 给出简洁于线自操练范式 LLM - 推理芯片

📅 2026-04-23 06:54:28 🏷️ 酸钙地板 👁️ 910
仅靠自身就能增强推演?SePT 给出简洁于线自操练范式 LLM

此里之 baseline 并非默认采样设置下直接评测之基座模型,而为未做后操练、但于推演阶段经过 temperature sweep 并取最佳结局之强基线。

模型之一般本领会不会因只于数学自生成轨迹上续操练而受损。

进化。

Δ 表示 DSR 相待 OTM 之变化,阴影标出 DSR 至少高出 OTM 2.0 分之情形。

比蒂

结局基本为几乎不掉:根基模型分别为 23.4/47.5/29.9/41.4/32.1,SePT 为 23.6/47.3/30.6/41.5/32.2。

新车

下面先看此种于线轮回自操练到底带来之多少提升。

为什么此件事重要。

TensorFlow。

SePT 与 SePT (Offline) 于 Qwen2.5-Math-7B 上之较量,括号中之数值表示相待 baseline 之变化。

SePT 中之于线自生成数据 若进一步与 RLVR 法门( GRPO) 较量,可看到:自操练法门SePT 已能够取得与 GRPO 较为接近之结局,尤其为于OTM数据集上。

数学推演上之结局:SePT vs RLVR。

为之。

改造升级。

Pass@1、Pass@8、Pass@32 以及 AVG 于基座模型上随采样温度变化之结局。

知名企业

此一设计之枢纽可概括为:温度解耦、标准SFT操练,最新模型自生成数据。

Performance Testing。

SePT 有之极其简洁之自操练框架设计,可概括为以下三名步骤: SePT 算法实在流程 如流程图所示,SePT 之核心极其简洁:当前模型先生成解答,再用此些解答做标准 SFT,随后由更新后之模型重新生成下一轮操练数据。

以 Qwen2.5-Math-7B 为例,若用 temperature coupling,Pass@1/Pass@8/Pass@32/AVG 只有 19.3/50.1/64.3/44.6,Pass@1 甚至低于 baseline;而采用 decoupling 后,四项指标可提升到 39.5/57.7/67.9/55.0。

大模型

若不依赖此些外部信号,只用模型自身生成之解答进行自操练,为否仍然能够提升推演本领。

此些结局说明,于本文之较量设置下,SePT 对操练题集选择表现出更小之波动,而 GRPO 于 DSR 上之增益更明显。

本项研讨为与上海交通大学赵磊老师、香港中文大学苏文藻老师协作,并于香港中文大学(深圳)孙若愚老师与李肖老师之共同指导下成。

地震

此一设计之枢纽可概括为:温度解耦、标准SFT操练,最新模型自生成数据。

于 DeepSeek-Math-7B-Instruct 上,同样之差距分别为 0.4(33.0 vs. 33.4)与 1.7(33.9 vs. 35.6)。

本文于 Qwen2.5-Math-7B 上之一组 general-domain benchmark正面回答之此一疑难,测试基准包括 IFEval、BBH、GPQA、MuSR 与 MMLU-Pro。

江新林。

甚至于 Qwen2.5-Math-7B 之 OTM 设置下,SePT 之 Pass@1 还略高于 GRPO(40.8 vs. 39.5)。

主结局如图所示。

经过 SePT 自操练后, 于 6 名数学基准测试集平均后之 Pass@1、Pass@8、Pass@32 与 AVG 上均有明显提升。

论文标题:A Model Can Help Itself: Reward-Free Self-Training for LLM Reasoning论文:https://arxiv.org/pdf/2510.18814代码:https://github.com/ElementQi/SePT 于推演后操练里,多数法门仍依赖奖模型、验证器或额外教师信号。

SePT 中之温度解耦 本文第一作者李梦琦为香港中文大学(深圳)计算机格致专业博士生。

SePT之于线自操练轮回示意:样本以采样温度 τ_s 生成,操练阶段采用标准 SFT;下一轮操练数据由更新后之模型生成。

有名无实。

Qwen2.5-Math-7B 基座模型及其 SePT、GRPO 操练版本于通用领域之评测结局。

金发女郎

两套操练题集规模相近。

风言风语。

括号内数值表示法门值与基准值之差(Method−Baseline)。

普通股

Pass@1、Pass@8、Pass@32 以及 AVG 于基座模型上随采样温度变化之结局。

本文之定理一给出之一名直观之理论论证: 自操练为否会损害模型通用本领。

结合表中之结局,于 Qwen2.5-Math-7B 上,用 OTM 时,SePT 与 GRPO 之 AVG 分别为 55.2 与 56.6,差距只有 1.4;而于 DSR 上,此一差距扩为 4.1(55.0 vs. 59.1)。

数学推演上之结局:SePT vs Baseline 此一点于实验上也被直接验证之。

SePT(Self-evolving Post-Training)给出认可解答,简洁之自操练法门,可于数学推演差事准确率直升10名点。

期货市场

也就为说,SePT 里“低温生成 + 标准 SFT”对于数学推演之提升并不为一名阅历 trick,而为理论与实验皆支之重要设计。

于 Qwen2.5-Math-7B 上,6 名数学基准测试集平均后之 Pass@1、Pass@8、Pass@32 与 AVG:SePT 于各项指标上均明显高于上述 baseline。

计算机

以 Qwen2.5-Math-7B 为例,SePT (Offline) 之 AVG 为 45.5,而于线版本之 SePT 可达到 55.0。

本文进一步通过消融实验验证之此一设计之重要性:若将“由最新模型逐轮生成下一轮操练数据”改为固定数据操练,性能会明显降。

OpenThoughts-Math(OTM)与 DeepScaleR(DSR)于 Qwen2.5-Math-7B 与 DeepSeek-Math-7B-Instruct 上之平均基准较量。

此表明SePT自操练法门不会明显损害模型之通用本领。

拼多多。

Qwen2.5-Math-7B 于温度耦合与解耦预案下之对比。

也就为说,SePT 于 IFEval、GPQA、MuSR、MMLU-Pro 上皆有轻微提升,BBH 基本不变;GRPO 也呈现之类似模式。

上一篇:华夏移动集采6万台效劳器,ARM办理器占比升至65% 下一篇:逸璟科技发布新一代灵巧脸「灵智5号」:开启者形机器者"命感交互"新时代