Featured image of post AI Paper Daily | 2026-03-29

AI Paper Daily | 2026-03-29

今日概览

共收录 2 篇论文 | Audio LLM: 0篇 | LLM Training: 2篇 | AI Agents: 0篇 来源: HuggingFace(2)

今天新论文较少(大部分已在前几天报道过),但收录的两篇都值得关注:一篇是 RLVR 训练加速的实用方法,另一篇是 Cursor 发布的 Composer 2 技术报告。

重点推荐 ⭐

Prune as You Generate: Online Rollout Pruning for Faster and Better RLVR

在 RLVR 训练中在线剪枝 rollout,同时加速训练 1.7 倍并提升准确率

  • 作者: Haobo Xu et al.
  • 来源: HuggingFace (2 upvotes)
  • 链接: arXiv | PDF
  • 关键贡献: 提出 ARRoL 方法,通过训练一个轻量级 quality head 在生成过程中预测 rollout 成功概率并进行早期剪枝,既减少了无效计算又增强了学习信号。在 GRPO 和 DAPO 上均有效,且 quality head 还可在推理时用于 test-time scaling,额外带来最高 +8.33 的准确率提升。
  • 相关技术: RLVR, rollout pruning, quality head, GRPO, DAPO, test-time scaling
  • 代码/权重: 已开源 ✅ https://github.com/Hsu1023/ARRoL
📄 Abstract 中文翻译

基于可验证奖励的强化学习(Reinforcement Learning with Verifiable Rewards, RLVR)显著提升了大语言模型(LLM)的推理能力。然而,GRPO 和 DAPO 等方法存在大量计算开销,因为它们依赖于对每个 prompt 采样大量 rollout。此外,在 RLVR 中,相对优势往往是稀疏的:许多样本要么几乎全对,要么几乎全错,导致组内奖励方差较低,学习信号较弱。本文提出 ARRoL(Accelerating RLVR via online Rollout Pruning),一种在生成过程中在线剪枝 rollout 的方法,同时显式地引导存活的 rollout 在正确性上更加均衡,以增强学习信号。具体来说,ARRoL 在训练过程中实时训练一个轻量级 quality head 来预测部分 rollout 的成功概率,并据此做出早期剪枝决策。学习到的 quality head 还可以在推理时的 test-time scaling 中对候选项进行加权,以提高推理准确率。为了提升效率,我们设计了一套系统方案,在推理引擎内部剪枝 rollout,并将剩余的 rollout 重新组批用于 log-probability 计算和策略更新。在 Qwen-3 和 LLaMA-3.2 模型(1B-8B)上基于 GRPO 和 DAPO 的实验表明,ARRoL 将平均准确率提升了 +2.30 到 +2.99,同时实现了最高 1.7 倍的训练加速,并在 test-time scaling 中额外带来最高 +8.33 的平均准确率增益。代码已开源于 https://github.com/Hsu1023/ARRoL


Composer 2 Technical Report

Cursor 发布的专用编码 Agent 模型,在软件工程基准上达到前沿水平

  • 作者: Cursor Research, Aaron Chan et al.
  • 来源: HuggingFace
  • 链接: arXiv | PDF
  • 关键贡献: Composer 2 是 Cursor 为 agentic software engineering 专门训练的模型,采用两阶段训练——先做 continued pretraining 增强编码知识,再通过大规模强化学习在真实编码环境中端到端优化。特别之处在于训练环境与部署环境完全一致(同一 Cursor harness),在 SWE-bench Multilingual 上达到 73.7,Terminal-Bench 上达到 61.7,证明了领域专用模型训练的可行路径。
  • 相关技术: agentic software engineering, continued pretraining, reinforcement learning for code, SWE-bench, CursorBench
  • 代码/权重: 未开源
📄 Abstract 中文翻译

Composer 2 是一个专为 agentic 软件工程(智能体式软件工程)设计的专用模型。该模型展现了强大的长期规划和编码智能,同时保持了交互式使用中高效解决问题的能力。模型训练分为两个阶段:首先进行 continued pretraining(持续预训练)以提升模型的知识和潜在编码能力,然后通过大规模强化学习来提升端到端编码性能——包括更强的推理能力、精确的多步执行以及在长时间跨度的真实编码问题上的连贯性。我们开发了基础设施来支持在与部署模型相同的 Cursor harness 中进行训练,使用等效的工具和结构,并使用与真实问题高度匹配的环境。为了衡量模型在难度递增的任务上的能力,我们引入了一个基准测试,该基准源自大型代码库(包括我们自己的代码库)中的真实软件工程问题。Composer 2 是一个前沿级别的编码模型,展示了训练强大领域专用模型的流程。在我们的 CursorBench 评估中,该模型相比之前的 Composer 模型实现了准确率的大幅提升(61.3)。在公开基准上,该模型在我们的 harness 中于 Terminal-Bench 上得分 61.7,SWE-bench Multilingual 上得分 73.7,与最先进的系统相当。


🧠 LLM Training

今日两篇论文均属于 LLM Training 方向,已在上方重点推荐中详细介绍。


Generated on 2026-03-29 00:00 UTC | Sources: HuggingFace


Cover image source: Pixiv

Licensed under CC BY-NC-SA 4.0