AI Paper Daily | 2026-03-29

今日概览

共收录 2 篇论文 | Audio LLM: 0篇 | LLM Training: 2篇 | AI Agents: 0篇来源: HuggingFace(2)

今天新论文较少（大部分已在前几天报道过），但收录的两篇都值得关注：一篇是 RLVR 训练加速的实用方法，另一篇是 Cursor 发布的 Composer 2 技术报告。

重点推荐 ⭐

Prune as You Generate: Online Rollout Pruning for Faster and Better RLVR

在 RLVR 训练中在线剪枝 rollout，同时加速训练 1.7 倍并提升准确率

作者: Haobo Xu et al.
来源: HuggingFace (2 upvotes)
链接: arXiv | PDF
关键贡献: 提出 ARRoL 方法，通过训练一个轻量级 quality head 在生成过程中预测 rollout 成功概率并进行早期剪枝，既减少了无效计算又增强了学习信号。在 GRPO 和 DAPO 上均有效，且 quality head 还可在推理时用于 test-time scaling，额外带来最高 +8.33 的准确率提升。
相关技术: RLVR, rollout pruning, quality head, GRPO, DAPO, test-time scaling
代码/权重: 已开源 ✅ https://github.com/Hsu1023/ARRoL

📄 Abstract 中文翻译

基于可验证奖励的强化学习（Reinforcement Learning with Verifiable Rewards, RLVR）显著提升了大语言模型（LLM）的推理能力。然而，GRPO 和 DAPO 等方法存在大量计算开销，因为它们依赖于对每个 prompt 采样大量 rollout。此外，在 RLVR 中，相对优势往往是稀疏的：许多样本要么几乎全对，要么几乎全错，导致组内奖励方差较低，学习信号较弱。本文提出 ARRoL（Accelerating RLVR via online Rollout Pruning），一种在生成过程中在线剪枝 rollout 的方法，同时显式地引导存活的 rollout 在正确性上更加均衡，以增强学习信号。具体来说，ARRoL 在训练过程中实时训练一个轻量级 quality head 来预测部分 rollout 的成功概率，并据此做出早期剪枝决策。学习到的 quality head 还可以在推理时的 test-time scaling 中对候选项进行加权，以提高推理准确率。为了提升效率，我们设计了一套系统方案，在推理引擎内部剪枝 rollout，并将剩余的 rollout 重新组批用于 log-probability 计算和策略更新。在 Qwen-3 和 LLaMA-3.2 模型（1B-8B）上基于 GRPO 和 DAPO 的实验表明，ARRoL 将平均准确率提升了 +2.30 到 +2.99，同时实现了最高 1.7 倍的训练加速，并在 test-time scaling 中额外带来最高 +8.33 的平均准确率增益。代码已开源于 https://github.com/Hsu1023/ARRoL。

Composer 2 Technical Report

Cursor 发布的专用编码 Agent 模型，在软件工程基准上达到前沿水平

作者: Cursor Research, Aaron Chan et al.
来源: HuggingFace
链接: arXiv | PDF
关键贡献: Composer 2 是 Cursor 为 agentic software engineering 专门训练的模型，采用两阶段训练——先做 continued pretraining 增强编码知识，再通过大规模强化学习在真实编码环境中端到端优化。特别之处在于训练环境与部署环境完全一致（同一 Cursor harness），在 SWE-bench Multilingual 上达到 73.7，Terminal-Bench 上达到 61.7，证明了领域专用模型训练的可行路径。
相关技术: agentic software engineering, continued pretraining, reinforcement learning for code, SWE-bench, CursorBench
代码/权重: 未开源

📄 Abstract 中文翻译

Composer 2 是一个专为 agentic 软件工程（智能体式软件工程）设计的专用模型。该模型展现了强大的长期规划和编码智能，同时保持了交互式使用中高效解决问题的能力。模型训练分为两个阶段：首先进行 continued pretraining（持续预训练）以提升模型的知识和潜在编码能力，然后通过大规模强化学习来提升端到端编码性能——包括更强的推理能力、精确的多步执行以及在长时间跨度的真实编码问题上的连贯性。我们开发了基础设施来支持在与部署模型相同的 Cursor harness 中进行训练，使用等效的工具和结构，并使用与真实问题高度匹配的环境。为了衡量模型在难度递增的任务上的能力，我们引入了一个基准测试，该基准源自大型代码库（包括我们自己的代码库）中的真实软件工程问题。Composer 2 是一个前沿级别的编码模型，展示了训练强大领域专用模型的流程。在我们的 CursorBench 评估中，该模型相比之前的 Composer 模型实现了准确率的大幅提升（61.3）。在公开基准上，该模型在我们的 harness 中于 Terminal-Bench 上得分 61.7，SWE-bench Multilingual 上得分 73.7，与最先进的系统相当。

🧠 LLM Training

今日两篇论文均属于 LLM Training 方向，已在上方重点推荐中详细介绍。

Generated on 2026-03-29 00:00 UTC | Sources: HuggingFace

Cover image source: Pixiv