今日候选池 91 篇,硬过滤 + LLM 打分后通过评估 16 篇,精选 Top-10,另列 6 篇速览。

关注方向:多 Agent 系统 / LLM 后训练(RL/SFT) / 扩散语言模型 / 推理加速 / 长上下文 / 量化交易


🌟 精选

1. Consolidating Rewarded Perturbations for LLM Post-Training

评分 8.4 · 方向 cs.CL · Computation and Language · arxiv 2605.31494 · PDF

💡 CoRP 将 reward-weighted 高斯扰动群体通过低秩聚合压缩为单模型更新,免梯度后训练在数学/代码/写作上平均提升 8.1 分。

后训练 无梯度优化 模型融合 低秩结构

摘要:语言模型后训练通常采用"采样-评分-更新"的梯度下降范式。RandOpt 等近期工作将此循环迁移至权重空间,围绕预训练模型采样高斯扰动并在推理时集成 top-K 奖励专家,但需 K 次前向传播且难以扩展到自由生成。本文提出 CoRP(Consolidating Rewarded Perturbations),一种无梯度算子,通过奖励加权聚合、兼容性感知重加权和验证门控,将奖励种群合并为单一可部署模型。对 25 组模型-任务对的分析揭示了可复现的低秩结构。在 0.5B–8B 的五个模型和涵盖数学、代码、创意写作的五项任务上,CoRP 平均提升基础模型 8.1 分;仅用 RandOpt 十分之一的扰动预算,即超越单次推理 RandOpt 6.5 分,并以单次前向传播恢复 50-pass 多数投票集成一半以上的增益。

评分细项:rel 9 / nov 8 / prac 8 / author 5

2. Are Full Rollouts Necessary for On-Policy Distillation?

评分 8.2 · 方向 cs.CL · Computation and Language · arxiv 2605.31490 · PDF

💡 在 on-policy distillation 中提出渐进式/截断式 rollout horizon 控制,用 10% rollout 长度即可匹配全量蒸馏性能,训练效率提升 3×。

后训练 知识蒸馏 推理效率 数学推理

摘要:在策略蒸馏(On-Policy Distillation, OPD)沿学生生成的轨迹提供密集教师反馈,是长程推理后训练的有效范式,但标准 OPD 需生成完整 rollout,计算开销大且训练早期后段教师反馈不可靠。本文指出 rollout 长度是 OPD 效率的关键瓶颈:与需要完整轨迹和最终答案奖励的 RLVR 不同,OPD 无需完整 rollout 即可提供学习信号。基于此,提出两种简单策略:渐进式 OPD(POPD)在训练中逐步扩展 rollout 长度;截断式 OPD(TOPD)始终在可靠的截断轨迹上蒸馏。数学推理实验表明,POPD 将 OPD 训练效率提升最高 3 倍,TOPD 仅用 10% 的 rollout 长度即匹配完整 OPD 性能,显著降低时间和内存开销。

评分细项:rel 9 / nov 7 / prac 8 / author 6

3. LongTraceRL: Learning Long-Context Reasoning from Search Agent Trajectories with Rubric Rewards

评分 8.0 · 方向 cs.CL · Computation and Language · arxiv 2605.31584 · PDF

💡 用搜索 agent 轨迹构造分层干扰文档,并以实体级 rubric reward 做过程监督,提升长上下文多跳 RLVR 训练效果。

RLVR 长上下文推理 过程监督 多跳QA

摘要:长上下文推理是大语言模型的核心难题,模型常难以在大量干扰内容中定位并整合关键信息。基于可验证奖励的强化学习(RLVR)虽有潜力,但现有方法受限于低混淆度干扰项和稀疏的结果级奖励信号,无法监督中间推理步骤。LongTraceRL 从两方面解决该问题:数据构建上,通过知识图谱随机游走生成多跳问题,并利用搜索智能体轨迹构建分层干扰项——智能体阅读但未引用的文档(高混淆度)与出现在搜索结果但未被打开的文档(低混淆度),生成远比随机采样更具挑战性的训练上下文。奖励设计上,提出基于评分标准的奖励(rubric reward),以推理链上的黄金实体作为细粒度过程监督,仅对最终答案正确的响应施加奖励,区分正确响应间的推理质量并防止奖励黑客。在三个推理模型(4B–30B)和五个长上下文基准上,LongTraceRL 持续优于强基线,并促进全面、有据可依的推理。

评分细项:rel 9 / nov 7 / prac 7 / author 6

4. Learning Agent-Compatible Context Management for Long-Horizon Tasks

评分 8.1 · 方向 cs.AI · Artificial Intelligence · arxiv 2605.30785 · PDF

💡 AdaCoM:训练外部 LLM 通过 RL 端到端学习对冻结 agent 的上下文做自适应裁剪/摘要,解决长任务上下文退化问题并可跨 agent 迁移。

长上下文 agent系统 强化学习 上下文管理

摘要:LLM智能体在网页搜索、深度研究等长时程任务中面临上下文膨胀导致的推理退化问题。已有方法依赖智能体自身的上下文控制或固定摘要策略,难以适配闭源模型且忽略了不同智能体需要不同策略的事实。本文提出自适应上下文管理框架AdaCoM,通过端到端强化学习训练一个外部LLM,对冻结智能体的上下文执行灵活的修改操作。实验表明AdaCoM在多种智能体和基准上显著提升性能,并揭示了"保真度-可靠性权衡":高性能智能体受益于高保真上下文保留,低性能智能体则需更激进的压缩以维持可靠推理。迁移实验显示AdaCoM在能力相近的智能体间泛化效果最佳,为构建可复用的上下文管理器提供了实践路径。

评分细项:rel 8.5 / nov 7.5 / prac 8.0 / author 7.0

5. SCOPE: Self-Play via Co-Evolving Policies for Open-Ended Tasks

评分 7.4 · 方向 cs.CL · Computation and Language · arxiv 2605.31433 · PDF

💡 SCOPE 通过 Challenger-Solver 双策略自博弈在开放式任务上无数据训练 LLM,用冻结模型自评打分,超越 GRPO 基线。

自博弈 RL后训练 多agent 开放式任务

摘要:自博弈(self-play)可在无外部监督下训练语言模型,但现有方法依赖可规则验证的答案,开放式任务仍需人工提示或强模型评判。本文提出 SCOPE,一种无需外部数据的自博弈框架,通过协同演化两个策略实现开放式任务训练:Challenger 生成基于文档的任务,Solver 通过多轮检索作答。初始模型的冻结副本充当自评判者,依据源文档编写评分标准并据此打分。在三个 7-8B 指令微调模型上,SCOPE 在八个开放式基准上最高提升 10.4 分,匹配或超越使用约 9K 人工提示训练的 GRPO;尽管仅在开放式任务上训练,短答 QA 也提升最高 13.8 分。消融实验表明 Challenger 的协同演化对保持任务难度至关重要,且评分标准生成质量是自评判的瓶颈。

评分细项:rel 8 / nov 7 / prac 7 / author 5

6. SLAT: Segment-Level Adaptive Trimming for Efficient CoT Reasoning

评分 7.4 · 方向 cs.AI · Artificial Intelligence · arxiv 2605.30832 · PDF

💡 SLAT:基于段级边际效用理论刻画冗余,用 RL 选择性裁剪 CoT 中低效段,推理长度减半且精度持平。

推理加速 强化学习 CoT压缩

摘要:大型推理模型通过强化学习显著提升了思维链(CoT)能力,但生成的推理链常存在结构性冗余(即"过度思考"),增加计算开销却不提升正确率。现有方法多采用 token 级均匀长度惩罚,粒度粗且可能误伤有效推理。本文发现冗余集中在高概率但边际效用低的片段,并从正确率-长度权衡目标出发推导了片段次优性的理论刻画,据此提出 SLAT(Segment-Level Adaptive Trimming),一种选择性抑制冗余片段的强化学习框架。实验表明 SLAT 建立了更优的准确率-效率 Pareto 前沿,在保持竞争力准确率的同时将推理长度缩减约 50%,证明理论驱动的片段感知裁剪是高效 CoT 推理的有效方向。

评分细项:rel 8.0 / nov 7.0 / prac 7.5 / author 5.0

7. Safe Equilibrium Policy Optimization for Strategic Agent Policies

评分 7.0 · 方向 cs.MA · Multiagent Systems · arxiv 2605.30854 · PDF

💡 提出SEPO目标函数,在GRPO中加入可利用性/共谋/外部性惩罚,训练LLM在博弈场景中达成安全均衡策略。

多agent RLHF 博弈论 GRPO 后训练

摘要:经强化学习微调的语言模型通常仅优化任务奖励,忽视多智能体博弈结构,导致利用弱对手、有害均衡共谋及外部性转嫁等策略性失败模式。本文提出 Safe Equilibrium Policy Optimization (SEPO),在期望收益基础上显式惩罚可利用性、共谋风险与外部性代价,并将其作为 Group Relative Policy Optimization (GRPO) 的奖励信号,应用于 Gemma 4 E4B-it 和 Qwen 3.5-4B。在迭代囚徒困境、重复拍卖、两种谈判变体及 Kuhn Poker 五个博弈场景中评估表明,SEPO 在 Kuhn Poker 中实现零利用池优势,在四个领域安全性优于基线,并纠正了 SFT 引入的过度合作倾向。消融实验证实逐 rollout 的利用度计算不可或缺,共享常数惩罚因 GRPO 优势归一化而梯度为零。

评分细项:rel 7.5 / nov 6.5 / prac 6.5 / author 5.0

8. Planner-Centric Reinforcement Learning for Deep Research with Structure-Aware Reward

评分 7.2 · 方向 cs.AI · Artificial Intelligence · arxiv 2605.30824 · PDF

💡 DecomposeR:将深度研究计划表示为有类型 DAG,分阶段对 planner 和 answerer 做 RL,实现细粒度规划信用分配。

多agent 强化学习 深度研究 规划

摘要:深度研究任务要求 LLM 规划调研方向、检索证据并跨多条探索路径综合生成长文本答案。现有训练范式要么以短文本可验证 QA 为代理任务,要么端到端优化整条长轨迹,导致规划与执行难以解耦、规划过程的信用分配薄弱。本文提出 DecomposeR,一种以规划器为中心的深度研究框架,将研究计划表示为带类型的有向无环图 (DAG),使规划过程显式化、结构化且可被奖励。基于 Qwen3-8B 分两阶段训练:规划器 RL 学习图结构与查询分解以提升规划质量,回答器 RL 再基于已学计划进行分支执行与最终综合。实验表明 DecomposeR-8B 在主流长文本基准上较同规模强基线提升 5.1–8.0 分。

评分细项:rel 7.5 / nov 7.5 / prac 7.0 / author 5.0

9. Distilling LLM Feedback for Lean Theorem Proving

评分 7.1 · 方向 cs.AI · Artificial Intelligence · arxiv 2605.30861 · PDF

💡 提出 Feedback Distillation:用 LLM 生成的反馈做 token 级自蒸馏,缓解 GRPO 稀疏奖励与 mode collapse,在 Lean4 定理证明上与 GRPO 互补提升 pass@k。

后训练 强化学习 自蒸馏 定理证明

摘要:推理模型的后训练通常结合监督微调与可验证奖励的强化学习(如 GRPO),但该算法存在奖励稀疏、探索不足和模式坍缩等问题。本文在自蒸馏工作基础上提出 Feedback Distillation:利用语言模型生成特权反馈,训练模型在 token 级别匹配以该反馈为条件的自身分布,从而提供 token 级监督并注入外部知识。在 Lean4 定理证明任务上的实验表明,Feedback Distillation 生成轨迹的多样性优于 GRPO,具有更高的策略熵和更好的 pass@k 扩展性。两种方法互补:以 Feedback Distillation 检查点初始化 GRPO 的效果优于单独使用任一方法,为复杂推理的后训练提供了有前景的改进路径。

评分细项:rel 7.5 / nov 7.0 / prac 6.5 / author 6.0

10. Dreaming Of Others: Latent Teammate Modeling In World Models For Multi-Agent Reinforcement Learning

评分 6.7 · 方向 cs.MA · Multiagent Systems · arxiv 2605.31361 · PDF

💡 在Dreamer式RSSM中将隐状态分解为环境与队友分量,加Theory-of-Mind头推断伙伴意图实现零样本协作。

多agent 世界模型 MARL Theory-of-Mind

摘要:在协作式多智能体强化学习(MARL)中,智能体需与策略不可直接观测的队友协调。Dreamer 等世界模型在单智能体场景表现优异,但难以处理队友引入的不确定性。本文提出将队友建模为世界模型中可学习的结构化组件:在 Dreamer 风格的循环状态空间模型(RSSM)中,将隐状态分解为环境与队友两部分,并引入辅助心智理论(Theory-of-Mind)头,从部分轨迹推断队友行为的隐表征(如性格、意图和预测动作)。这些队友隐变量作为 actor 和 critic 的条件输入,使智能体能在想象中适应多样化的协作者,支持部分可观测环境下的零样本与少样本协调。该工作将世界模型从环境动态预测器扩展为社会行为模拟器,为可泛化、人类兼容的 AI 开辟了新方向。

评分细项:rel 7.5 / nov 7.0 / prac 5.0 / author 4.0


📚 速览 · 其他通过评估的工作(6 篇)

一句话扫读,按评分从高到低;点击标题跳转 arxiv。

  1. cs.CL 6.6 What Gets Unmasked First? Trajectory Analysis of Diffusion Models for Graph-to-Text Generation · 💡 分析 masked diffusion LM 解码轨迹,发现 SFT 会过早锚定结构 token,提出 λ-scaled 结构解码恢复 +9.4 BLEU。

  2. cs.AI 6.7 Learning to Adapt: Self-Improving Web Agent via Cognitive-Aware Exploration · 💡 SCALE 框架以 Selector/Predictor/Judger 三角对抗自主发现 web agent 短板,配合图探索策略与 20k 真实网站数据提升泛化。

  3. cs.AI 6.6 LinTree: Improving LLM Reasoning with Explicitly Structured Search Histories · 💡 在 LLM 推理 trace 中显式插入 parent pointer 标注回溯节点,使搜索树结构化后显著提升规划正确率。

  4. cs.CV 6.8 Linear Scaling Video VLMs for Long Video Understanding · 💡 StateKV 用固定容量重要性状态替代跨帧自注意力,将长视频 VLM 的 prefill 降为线性复杂度,无需微调即可在多模型上保持精度。

  5. cs.CV 6.7 VisionPulse: Dynamic Visual Sparsity for Efficient Multimodal Reasoning · 💡 在解码阶段逐步计算视觉注意力质量动态裁剪视觉token,同时缩短推理链长度,加速多模态推理。

  6. q-fin.TR 6.2 Quality-Adjusted Hit-Ratio Targeting in Corporate Bond Market Making · 💡 在 OTC 债券做市随机控制框架中引入残差质量调整命中率约束,将逆向选择分解为信用因子与残差毒性后求解最优报价。


数据源:arxiv.org · 评分与中文摘要由 LLM 自动生成,仅供初筛参考

Logo

脑启社区是一个专注类脑智能领域的开发者社区。欢迎加入社区,共建类脑智能生态。社区为开发者提供了丰富的开源类脑工具软件、类脑算法模型及数据集、类脑知识库、类脑技术培训课程以及类脑应用案例等资源。

更多推荐