06-01 · LLM 最新论文速览

qq_36671160

212人浏览 · 2026-06-01 20:13:27

qq_36671160 · 2026-06-01 20:13:27 发布

今日候选池 91 篇，硬过滤 + LLM 打分后通过评估 16 篇，精选 Top-10，另列 6 篇速览。

关注方向：多 Agent 系统 / LLM 后训练（RL/SFT） / 扩散语言模型 / 推理加速 / 长上下文 / 量化交易

🌟 精选

1. Consolidating Rewarded Perturbations for LLM Post-Training

评分 8.4 · 方向 cs.CL · Computation and Language · arxiv 2605.31494 · PDF

💡 CoRP 将 reward-weighted 高斯扰动群体通过低秩聚合压缩为单模型更新，免梯度后训练在数学/代码/写作上平均提升 8.1 分。

后训练 无梯度优化 模型融合 低秩结构

摘要：语言模型后训练通常采用"采样-评分-更新"的梯度下降范式。RandOpt 等近期工作将此循环迁移至权重空间，围绕预训练模型采样高斯扰动并在推理时集成 top-K 奖励专家，但需 K 次前向传播且难以扩展到自由生成。本文提出 CoRP（Consolidating Rewarded Perturbations），一种无梯度算子，通过奖励加权聚合、兼容性感知重加权和验证门控，将奖励种群合并为单一可部署模型。对 25 组模型-任务对的分析揭示了可复现的低秩结构。在 0.5B–8B 的五个模型和涵盖数学、代码、创意写作的五项任务上，CoRP 平均提升基础模型 8.1 分；仅用 RandOpt 十分之一的扰动预算，即超越单次推理 RandOpt 6.5 分，并以单次前向传播恢复 50-pass 多数投票集成一半以上的增益。

评分细项：rel 9 / nov 8 / prac 8 / author 5

2. Are Full Rollouts Necessary for On-Policy Distillation?

评分 8.2 · 方向 cs.CL · Computation and Language · arxiv 2605.31490 · PDF

💡 在 on-policy distillation 中提出渐进式/截断式 rollout horizon 控制，用 10% rollout 长度即可匹配全量蒸馏性能，训练效率提升 3×。

后训练 知识蒸馏 推理效率 数学推理

摘要：在策略蒸馏（On-Policy Distillation, OPD）沿学生生成的轨迹提供密集教师反馈，是长程推理后训练的有效范式，但标准 OPD 需生成完整 rollout，计算开销大且训练早期后段教师反馈不可靠。本文指出 rollout 长度是 OPD 效率的关键瓶颈：与需要完整轨迹和最终答案奖励的 RLVR 不同，OPD 无需完整 rollout 即可提供学习信号。基于此，提出两种简单策略：渐进式 OPD（POPD）在训练中逐步扩展 rollout 长度；截断式 OPD（TOPD）始终在可靠的截断轨迹上蒸馏。数学推理实验表明，POPD 将 OPD 训练效率提升最高 3 倍，TOPD 仅用 10% 的 rollout 长度即匹配完整 OPD 性能，显著降低时间和内存开销。

评分细项：rel 9 / nov 7 / prac 8 / author 6

3. LongTraceRL: Learning Long-Context Reasoning from Search Agent Trajectories with Rubric Rewards

评分 8.0 · 方向 cs.CL · Computation and Language · arxiv 2605.31584 · PDF

💡 用搜索 agent 轨迹构造分层干扰文档，并以实体级 rubric reward 做过程监督，提升长上下文多跳 RLVR 训练效果。

RLVR 长上下文推理 过程监督 多跳QA

摘要：长上下文推理是大语言模型的核心难题，模型常难以在大量干扰内容中定位并整合关键信息。基于可验证奖励的强化学习（RLVR）虽有潜力，但现有方法受限于低混淆度干扰项和稀疏的结果级奖励信号，无法监督中间推理步骤。LongTraceRL 从两方面解决该问题：数据构建上，通过知识图谱随机游走生成多跳问题，并利用搜索智能体轨迹构建分层干扰项——智能体阅读但未引用的文档（高混淆度）与出现在搜索结果但未被打开的文档（低混淆度），生成远比随机采样更具挑战性的训练上下文。奖励设计上，提出基于评分标准的奖励（rubric reward），以推理链上的黄金实体作为细粒度过程监督，仅对最终答案正确的响应施加奖励，区分正确响应间的推理质量并防止奖励黑客。在三个推理模型（4B–30B）和五个长上下文基准上，LongTraceRL 持续优于强基线，并促进全面、有据可依的推理。

评分细项：rel 9 / nov 7 / prac 7 / author 6

4. Learning Agent-Compatible Context Management for Long-Horizon Tasks

评分 8.1 · 方向 cs.AI · Artificial Intelligence · arxiv 2605.30785 · PDF

💡 AdaCoM：训练外部 LLM 通过 RL 端到端学习对冻结 agent 的上下文做自适应裁剪/摘要，解决长任务上下文退化问题并可跨 agent 迁移。

长上下文 agent系统 强化学习 上下文管理

摘要：LLM智能体在网页搜索、深度研究等长时程任务中面临上下文膨胀导致的推理退化问题。已有方法依赖智能体自身的上下文控制或固定摘要策略，难以适配闭源模型且忽略了不同智能体需要不同策略的事实。本文提出自适应上下文管理框架AdaCoM，通过端到端强化学习训练一个外部LLM，对冻结智能体的上下文执行灵活的修改操作。实验表明AdaCoM在多种智能体和基准上显著提升性能，并揭示了"保真度-可靠性权衡"：高性能智能体受益于高保真上下文保留，低性能智能体则需更激进的压缩以维持可靠推理。迁移实验显示AdaCoM在能力相近的智能体间泛化效果最佳，为构建可复用的上下文管理器提供了实践路径。

评分细项：rel 8.5 / nov 7.5 / prac 8.0 / author 7.0

5. SCOPE: Self-Play via Co-Evolving Policies for Open-Ended Tasks

评分 7.4 · 方向 cs.CL · Computation and Language · arxiv 2605.31433 · PDF

💡 SCOPE 通过 Challenger-Solver 双策略自博弈在开放式任务上无数据训练 LLM，用冻结模型自评打分，超越 GRPO 基线。

自博弈 RL后训练 多agent 开放式任务

摘要：自博弈（self-play）可在无外部监督下训练语言模型，但现有方法依赖可规则验证的答案，开放式任务仍需人工提示或强模型评判。本文提出 SCOPE，一种无需外部数据的自博弈框架，通过协同演化两个策略实现开放式任务训练：Challenger 生成基于文档的任务，Solver 通过多轮检索作答。初始模型的冻结副本充当自评判者，依据源文档编写评分标准并据此打分。在三个 7-8B 指令微调模型上，SCOPE 在八个开放式基准上最高提升 10.4 分，匹配或超越使用约 9K 人工提示训练的 GRPO；尽管仅在开放式任务上训练，短答 QA 也提升最高 13.8 分。消融实验表明 Challenger 的协同演化对保持任务难度至关重要，且评分标准生成质量是自评判的瓶颈。

评分细项：rel 8 / nov 7 / prac 7 / author 5

6. SLAT: Segment-Level Adaptive Trimming for Efficient CoT Reasoning

评分 7.4 · 方向 cs.AI · Artificial Intelligence · arxiv 2605.30832 · PDF

💡 SLAT：基于段级边际效用理论刻画冗余，用 RL 选择性裁剪 CoT 中低效段，推理长度减半且精度持平。

推理加速 强化学习 CoT压缩

摘要：大型推理模型通过强化学习显著提升了思维链（CoT）能力，但生成的推理链常存在结构性冗余（即"过度思考"），增加计算开销却不提升正确率。现有方法多采用 token 级均匀长度惩罚，粒度粗且可能误伤有效推理。本文发现冗余集中在高概率但边际效用低的片段，并从正确率-长度权衡目标出发推导了片段次优性的理论刻画，据此提出 SLAT（Segment-Level Adaptive Trimming），一种选择性抑制冗余片段的强化学习框架。实验表明 SLAT 建立了更优的准确率-效率 Pareto 前沿，在保持竞争力准确率的同时将推理长度缩减约 50%，证明理论驱动的片段感知裁剪是高效 CoT 推理的有效方向。

评分细项：rel 8.0 / nov 7.0 / prac 7.5 / author 5.0

7. Safe Equilibrium Policy Optimization for Strategic Agent Policies

评分 7.0 · 方向 cs.MA · Multiagent Systems · arxiv 2605.30854 · PDF

💡 提出SEPO目标函数，在GRPO中加入可利用性/共谋/外部性惩罚，训练LLM在博弈场景中达成安全均衡策略。

多agent RLHF 博弈论 GRPO 后训练

摘要：经强化学习微调的语言模型通常仅优化任务奖励，忽视多智能体博弈结构，导致利用弱对手、有害均衡共谋及外部性转嫁等策略性失败模式。本文提出 Safe Equilibrium Policy Optimization (SEPO)，在期望收益基础上显式惩罚可利用性、共谋风险与外部性代价，并将其作为 Group Relative Policy Optimization (GRPO) 的奖励信号，应用于 Gemma 4 E4B-it 和 Qwen 3.5-4B。在迭代囚徒困境、重复拍卖、两种谈判变体及 Kuhn Poker 五个博弈场景中评估表明，SEPO 在 Kuhn Poker 中实现零利用池优势，在四个领域安全性优于基线，并纠正了 SFT 引入的过度合作倾向。消融实验证实逐 rollout 的利用度计算不可或缺，共享常数惩罚因 GRPO 优势归一化而梯度为零。

评分细项：rel 7.5 / nov 6.5 / prac 6.5 / author 5.0

8. Planner-Centric Reinforcement Learning for Deep Research with Structure-Aware Reward

评分 7.2 · 方向 cs.AI · Artificial Intelligence · arxiv 2605.30824 · PDF

💡 DecomposeR：将深度研究计划表示为有类型 DAG，分阶段对 planner 和 answerer 做 RL，实现细粒度规划信用分配。

多agent 强化学习 深度研究 规划

摘要：深度研究任务要求 LLM 规划调研方向、检索证据并跨多条探索路径综合生成长文本答案。现有训练范式要么以短文本可验证 QA 为代理任务，要么端到端优化整条长轨迹，导致规划与执行难以解耦、规划过程的信用分配薄弱。本文提出 DecomposeR，一种以规划器为中心的深度研究框架，将研究计划表示为带类型的有向无环图 (DAG)，使规划过程显式化、结构化且可被奖励。基于 Qwen3-8B 分两阶段训练：规划器 RL 学习图结构与查询分解以提升规划质量，回答器 RL 再基于已学计划进行分支执行与最终综合。实验表明 DecomposeR-8B 在主流长文本基准上较同规模强基线提升 5.1–8.0 分。

评分细项：rel 7.5 / nov 7.5 / prac 7.0 / author 5.0

9. Distilling LLM Feedback for Lean Theorem Proving

评分 7.1 · 方向 cs.AI · Artificial Intelligence · arxiv 2605.30861 · PDF

💡 提出 Feedback Distillation：用 LLM 生成的反馈做 token 级自蒸馏，缓解 GRPO 稀疏奖励与 mode collapse，在 Lean4 定理证明上与 GRPO 互补提升 pass@k。

后训练 强化学习 自蒸馏 定理证明

摘要：推理模型的后训练通常结合监督微调与可验证奖励的强化学习（如 GRPO），但该算法存在奖励稀疏、探索不足和模式坍缩等问题。本文在自蒸馏工作基础上提出 Feedback Distillation：利用语言模型生成特权反馈，训练模型在 token 级别匹配以该反馈为条件的自身分布，从而提供 token 级监督并注入外部知识。在 Lean4 定理证明任务上的实验表明，Feedback Distillation 生成轨迹的多样性优于 GRPO，具有更高的策略熵和更好的 pass@k 扩展性。两种方法互补：以 Feedback Distillation 检查点初始化 GRPO 的效果优于单独使用任一方法，为复杂推理的后训练提供了有前景的改进路径。

评分细项：rel 7.5 / nov 7.0 / prac 6.5 / author 6.0

10. Dreaming Of Others: Latent Teammate Modeling In World Models For Multi-Agent Reinforcement Learning

评分 6.7 · 方向 cs.MA · Multiagent Systems · arxiv 2605.31361 · PDF

💡 在Dreamer式RSSM中将隐状态分解为环境与队友分量，加Theory-of-Mind头推断伙伴意图实现零样本协作。

多agent 世界模型 MARL Theory-of-Mind

摘要：在协作式多智能体强化学习（MARL）中，智能体需与策略不可直接观测的队友协调。Dreamer 等世界模型在单智能体场景表现优异，但难以处理队友引入的不确定性。本文提出将队友建模为世界模型中可学习的结构化组件：在 Dreamer 风格的循环状态空间模型（RSSM）中，将隐状态分解为环境与队友两部分，并引入辅助心智理论（Theory-of-Mind）头，从部分轨迹推断队友行为的隐表征（如性格、意图和预测动作）。这些队友隐变量作为 actor 和 critic 的条件输入，使智能体能在想象中适应多样化的协作者，支持部分可观测环境下的零样本与少样本协调。该工作将世界模型从环境动态预测器扩展为社会行为模拟器，为可泛化、人类兼容的 AI 开辟了新方向。

评分细项：rel 7.5 / nov 7.0 / prac 5.0 / author 4.0

📚 速览 · 其他通过评估的工作（6 篇）

一句话扫读，按评分从高到低；点击标题跳转 arxiv。

cs.CL 6.6 What Gets Unmasked First? Trajectory Analysis of Diffusion Models for Graph-to-Text Generation · 💡 分析 masked diffusion LM 解码轨迹，发现 SFT 会过早锚定结构 token，提出 λ-scaled 结构解码恢复 +9.4 BLEU。
cs.AI 6.7 Learning to Adapt: Self-Improving Web Agent via Cognitive-Aware Exploration · 💡 SCALE 框架以 Selector/Predictor/Judger 三角对抗自主发现 web agent 短板，配合图探索策略与 20k 真实网站数据提升泛化。
cs.AI 6.6 LinTree: Improving LLM Reasoning with Explicitly Structured Search Histories · 💡 在 LLM 推理 trace 中显式插入 parent pointer 标注回溯节点，使搜索树结构化后显著提升规划正确率。
cs.CV 6.8 Linear Scaling Video VLMs for Long Video Understanding · 💡 StateKV 用固定容量重要性状态替代跨帧自注意力，将长视频 VLM 的 prefill 降为线性复杂度，无需微调即可在多模型上保持精度。
cs.CV 6.7 VisionPulse: Dynamic Visual Sparsity for Efficient Multimodal Reasoning · 💡 在解码阶段逐步计算视觉注意力质量动态裁剪视觉token，同时缩短推理链长度，加速多模态推理。
q-fin.TR 6.2 Quality-Adjusted Hit-Ratio Targeting in Corporate Bond Market Making · 💡 在 OTC 债券做市随机控制框架中引入残差质量调整命中率约束，将逆向选择分解为信用因子与残差毒性后求解最优报价。

数据源：arxiv.org · 评分与中文摘要由 LLM 自动生成，仅供初筛参考

脑启社区

脑启社区是一个专注类脑智能领域的开发者社区。欢迎加入社区，共建类脑智能生态。社区为开发者提供了丰富的开源类脑工具软件、类脑算法模型及数据集、类脑知识库、类脑技术培训课程以及类脑应用案例等资源。

更多推荐

2026年CSDN年度技术趋势预测：AI原生、量子计算与开发者新范式

2026年技术趋势前瞻本文系统预测了2026年关键技术领域的发展方向。AI将完成从工具到基础设施的转变，量子计算步入实用化阶段，云原生与边缘计算深度融合。开发者工具迎来云化协作化革新，区块链、生物计算等新兴技术加速突破。同时，技术组织面临人才结构变革，需应对安全合规、伦理社会等新型挑战。报告建议决策者关注AI原生应用、量子-经典混合架构等核心领域，开发者需培养跨学科技能，把握云边端协同、可持续计