AI Paper Daily | 2026-05-09

今日概览

共收录 22 篇论文 | Audio LLM: 3篇 | LLM Training: 12篇 | AI Agents: 6篇 | 通用热门: 0篇 | 其他值得关注: 1篇 来源: HuggingFace(22) 去重: 跳过 8 篇过去 7 天已报道论文

重点推荐 ⭐

Audio-Visual Intelligence in Large Foundation Models

首个全面梳理大模型时代音视频联合智能的综述,覆盖理解、生成与交互三大维度

  • 作者: You Qin, Kai Liu, Shengqiong Wu, Kai Wang et al.
  • 来源: HuggingFace Trending (17 upvotes)
  • 链接: arXiv | PDF
  • 关键贡献: 建立了音视频智能(AVI)的统一分类体系,从理解(语音识别、声源定位)到生成(音频驱动视频合成、视频到音频)再到交互(对话式、具身式、代理式界面)全面覆盖;系统梳理了模态token化、跨模态融合、自回归与扩散生成、大规模预训练、指令对齐和偏好优化等方法论基础;整理了代表性数据集、基准和评估指标,识别了同步性、空间推理、可控性和安全性等开放挑战。
  • 相关技术: audio-visual intelligence, cross-modal fusion, autoregressive generation, diffusion models, multimodal pretraining
  • 代码/权重: 未提及
📄 Abstract 中文翻译

音视频智能(AVI)已成为人工智能的核心前沿,连接听觉和视觉模态,使机器能够在多模态真实世界中感知、生成和交互。在大模型时代,音频和视觉的联合建模日益关键——不仅用于理解,也用于跨动态时序信号的可控生成和推理。近期进展如Meta MovieGen和Google Veo-3凸显了工业界和学术界对从海量多模态数据中学习的统一音视觉架构的日益关注。然而,尽管进展迅速,文献仍然碎片化,涵盖多样化的任务、不一致的分类体系和异质的评估实践,阻碍了系统比较和知识整合。本综述首次从大模型的视角全面回顾AVI。我们建立了覆盖AVI任务广泛景观的统一分类体系,从理解(如语音识别、声源定位)到生成(如音频驱动视频合成、视频到音频)和交互(如对话式、具身式或代理式界面)。我们综合了方法论基础,包括模态token化、跨模态融合、自回归和扩散生成、大规模预训练、指令对齐和偏好优化。此外,我们策划了代表性数据集、基准和评估指标,提供了跨任务家族的结构化比较,并识别了同步性、空间推理、可控性和安全性方面的开放挑战。


Can RL Teach Long-Horizon Reasoning to LLMs? Expressiveness Is Key

揭示RL训练推理的幂律缩放规律——逻辑表达力决定缩放指数,表达力越强训练效率越高

  • 作者: Tianle Wang, Zhaoyang Wang, Guangchen Lan et al.
  • 来源: HuggingFace Trending (8 upvotes)
  • 链接: arXiv | PDF
  • 关键贡献: 提出ScaleLogic合成推理框架,可独立控制推理深度和逻辑表达力两个难度轴;发现RL训练计算量T与推理深度D服从幂律关系(T∝D^γ, R²>0.99),且缩放指数γ随逻辑表达力单调递增(从1.04到2.60);更富表达力的训练设置在下游数学和通用推理基准上产生更大的性能提升(最高+10.66分)和更高的计算效率迁移;课程式训练显著提升缩放效率。
  • 相关技术: reinforcement learning, long-horizon reasoning, power-law scaling, curriculum learning, logical expressiveness
  • 代码/权重: 未提及
📄 Abstract 中文翻译

强化学习(RL)已被应用于提升大语言模型(LLM)的推理能力,但由于缺乏可控、可扩展的环境,训练如何随任务难度缩放的系统研究一直受限。我们引入ScaleLogic,一个合成逻辑推理框架,提供对两个难度轴的独立控制:所需证明规划的深度(即视野)和底层逻辑的表达力。该框架支持广泛的逻辑:从简单的仅蕴含逻辑(“如果-那么”)到更具表达力的一阶推理,包含合取(“与”)、析取(“或”)、否定(“非”)和全称量化(“对所有”)。使用该框架,我们证明RL训练计算量T与推理深度D服从幂律关系(T∝D^γ, R²>0.99),且缩放指数γ随逻辑表达力单调递增,从1.04到2.60。在下游数学和通用推理基准上,更富表达力的训练设置产生更大的性能提升(最高+10.66分)和比低表达力设置更高的计算效率迁移,表明模型训练的内容——而非训练量——塑造了下游迁移。我们进一步证明幂律关系在多种RL方法中成立,课程式训练显著提升缩放效率。


SkillOS: Learning Skill Curation for Self-Evolving Agents

让Agent学会自主管理技能库——RL驱动的技能策展实现Agent自我进化

  • 作者: Siru Ouyang, Jun Yan, Yanfei Chen et al.
  • 来源: HuggingFace Trending (21 upvotes)
  • 链接: arXiv | PDF
  • 关键贡献: 提出SkillOS,将技能策展从手工规则转为RL驱动的学习过程;将冻结的Agent执行器与可训练的技能策展器配对,策展器从累积经验中更新外部SkillRepo;设计复合奖励并在按技能相关性分组的任务流上训练,早期轨迹更新SkillRepo、后续相关任务评估更新效果;学习到的策展器可泛化到不同执行器骨干和任务领域,技能库中的技能随时间演化为更丰富的结构化Markdown文件。
  • 相关技术: self-evolving agents, skill curation, reinforcement learning, skill library, experience-driven learning
  • 代码/权重: 未提及
📄 Abstract 中文翻译

基于LLM的Agent越来越多地被部署处理流式任务,但它们通常仍是一次性问题解决器,无法从过往交互中学习。从经验中蒸馏出的可复用技能为自我进化提供了天然基底,其中高质量技能策展是关键瓶颈。现有方法要么依赖手动技能策展、规定启发式技能操作,要么针对短视野技能操作训练。然而,它们仍然难以从间接和延迟反馈中学习复杂的长期策展策略。为应对这一挑战,我们提出SkillOS,一种用于学习自我进化Agent技能策展的经验驱动RL训练方案。SkillOS将一个冻结的检索和应用技能的Agent执行器与一个从累积经验中更新外部SkillRepo的可训练技能策展器配对。为策展提供学习信号,我们设计复合奖励并在基于技能相关任务依赖关系的分组任务流上训练,其中早期轨迹更新SkillRepo,后续相关任务评估这些更新。在多轮代理任务和单轮推理任务上,SkillOS在有效性和效率上持续优于无记忆和强记忆基线,学习到的技能策展器可泛化到不同执行器骨干和任务领域。进一步分析表明,学习到的策展器产生更有针对性的技能使用,而SkillRepo中的技能随时间演化为编码更高层元技能的更丰富的结构化Markdown文件。


Audio LLM

JASTIN: Aligning LLMs for Zero-Shot Audio and Speech Evaluation via Natural Language Instructions

用自然语言指令驱动音频评估——首个零样本通用音频评价框架

  • 作者: Leying Zhang, Bowen Shi, Haibin Wu et al.
  • 来源: HuggingFace Trending (2 upvotes)
  • 关键贡献: 将音频评估建模为自指导推理任务,冻结高性能音频编码器+可训练适配器+微调LLM骨干的三段式架构;提出多源、多任务、多校准、多描述的数据准备管线确保零样本泛化;在语音、声音、音乐和域外评估任务上无需任务特定重训练即超越通用MLLM。
  • 链接: arXiv | PDF
📄 Abstract 中文翻译

生成式音频模型的快速发展已超越鲁棒评估方法的发展。现有客观指标和通用多模态大语言模型(MLLM)常常在领域泛化、零样本能力和指令灵活性方面遇到困难。为解决这些瓶颈,我们提出JASTIN,一个可泛化的、指令驱动的音频评估框架,将音频评估建模为自指导推理任务。JASTIN通过可训练的音频适配器将冻结的高性能音频编码器与微调的LLM骨干桥接。为确保鲁棒的零样本泛化,我们引入了综合指令跟随数据准备管线,包含多源、多任务、多校准和多描述数据。实验结果表明JASTIN达到了与人类主观评分最先进的Pearson和Spearman相关性,在语音、声音、音乐和域外评估任务上无需任务特定重训练即持续超越通用MLLM。


LiVeAction: a Lightweight, Versatile, and Asymmetric Neural Codec Design for Real-time Operation

轻量非对称神经编解码器——FFT结构编码器+方差率约束,部署友好且跨模态通用

  • 作者: Dan Jacobellis, Neeraja J. Yadwadkar
  • 来源: HuggingFace Trending (1 upvote)
  • 关键贡献: 通过FFT结构约束和减小分析变换规模深度大幅降低编码器复杂度;用基于方差的率惩罚替代对抗和感知损失,简化训练并支持任意信号模态;在率失真性能上超越SOTA生成式tokenizer,同时保持低功耗传感器部署的实用性。
  • 链接: arXiv | PDF
  • 代码: https://github.com/UT-SysML/liveaction
📄 Abstract 中文翻译

现代传感器生成丰富的高保真数据,但在可穿戴或遥感设备上运行的应用仍受带宽和功耗预算限制。标准化编解码器如JPEG和MPEG在比特率和感知质量间实现了高效权衡,但为人类感知设计,限制了在机器感知任务和非传统模态(如空间音频阵列、高光谱图像和3D医学图像)中的适用性。基于标量量化或分辨率降低的通用压缩方案广泛适用但无法利用内在信号冗余,导致次优的率失真性能。最近的生成式神经编解码器或tokenizer建模复杂信号依赖,但通常过度参数化、数据饥渴且模态特定,使其不适用于资源受限环境。我们引入LiVeAction,一种轻量、通用且非对称的神经编解码架构,通过两个关键思想解决这些限制:(1)为降低编码器复杂度以满足执行环境的资源约束,我们施加FFT结构并减小基于神经网络的分析变换的整体规模和深度;(2)为允许任意信号模态并简化训练,我们用基于方差的率惩罚替代对抗和感知损失。


LLM Training

MDN: Parallelizing Stepwise Momentum for Delta Linear Attention

将动量优化引入线性注意力——几何重排实现分块并行,二阶系统分析引导稳定门控

  • 作者: Yulong Huang, Xiang Liu, Hongxiang Huang et al.
  • 来源: HuggingFace Trending (1 upvote)
  • 关键贡献: 将动量规则引入线性注意力的递推更新,通过几何重排更新系数实现分块并行算法;从动力系统视角分析动量递推引入共轭复特征值,设计稳定门控约束;Momentum DeltaNet(MDN)在400M和1.3B参数模型上持续超越Transformer、Mamba2和GDN基线。
  • 链接: arXiv | PDF
  • 代码: https://github.com/HuuYuLong/MomentumDeltaNet
📄 Abstract 中文翻译

线性注意力(LA)为将大语言模型(LLM)扩展到长序列提供了有前景的范式,通过避免自注意力的二次复杂度。近期的LA模型如Mamba2和GDN将线性递推解释为闭式在线随机梯度下降(SGD),但朴素SGD更新遭受快速信息衰减和次优收敛。虽然基于动量的优化器提供天然补救,但它们在同时实现训练效率和有效性方面面临挑战。为此,我们通过几何重排更新系数开发了动量步规则的LA分块并行算法。进一步,从动力系统视角,我们将基于动量的递推分析为引入共轭复特征值的二阶系统,该分析指导了稳定门控约束的设计。所得模型Momentum DeltaNet(MDN)利用Triton内核实现与Mamba2和KDA等竞争线性模型可比的训练吞吐量。在400M和1.3B参数模型上的广泛实验表明,MDN在多样下游评估基准上持续超越包括Transformer、Mamba2和GDN在内的强基线。


Think, then Score: Decoupled Reasoning and Scoring for Video Reward Modeling

“先想再打分”——解耦推理与评分的视频奖励模型,兼顾泛化与训练稳定性

  • 作者: Yuan Wang, Ouxiang Li, Yulong Xu et al.
  • 来源: HuggingFace Trending (1 upvote)
  • 关键贡献: 提出DeScore,将CoT推理与奖励评分解耦为两个独立模块——MLLM生成显式推理链,专用判别模块预测最终奖励;两阶段优化:判别冷启动(随机掩码)+双目标RL(独立精炼推理质量和校准奖励);消融证明更高质量的推理直接转化为更优的模型性能。
  • 链接: arXiv | PDF
📄 Abstract 中文翻译

生成式视频模型的近期进展越来越多地由后训练和测试时缩放驱动,两者都关键依赖于视频奖励模型(RM)的质量。理想奖励模型应预测与人类偏好对齐的准确奖励。然而,现有范式面临根本困境:判别式RM在MLLM提取的特征上直接回归奖励,不做显式推理,容易陷入捷径学习并严重依赖大规模数据缩放;生成式RM通过CoT推理展现更优的可解释性和泛化潜力,但在单一自回归推理链中推理与评分的耦合导致训练不稳定的优化瓶颈。为利用CoT推理的泛化优势同时缓解推理与评分耦合的训练不稳定性,我们引入DeScore,一种训练高效且可泛化的视频奖励模型。DeScore采用解耦的"先想再打分"范式:MLLM首先生成显式CoT,然后专用判别评分模块预测最终奖励。DeScore通过两阶段框架优化:(1)融入随机掩码机制的判别冷启动确保鲁棒评分能力;(2)双目标强化学习阶段独立精炼CoT推理质量和校准最终奖励,确保更高质量推理直接转化为更优模型性能。


UniPool: A Globally Shared Expert Pool for Mixture-of-Experts

打破逐层独占专家的MoE惯例——全局共享专家池让参数随深度亚线性增长

  • 作者: Minbin Huang, Han Shi, Chuanyang Zheng et al.
  • 来源: HuggingFace Trending (6 upvotes)
  • 关键贡献: 发现MoE深层路由器用均匀随机替换仅降1.0-1.6分,揭示逐层专家冗余;提出UniPool,用单一共享池+逐层独立路由器替代逐层专家独占;池级辅助损失+NormRouter保障共享下训练稳定均衡;仅用41.6%-66.7%的专家参数量匹配或超越标准MoE。
  • 链接: arXiv | PDF
📄 Abstract 中文翻译

现代MoE架构通过刚性逐层规则分配专家容量:每个transformer层拥有独立的专家集。这种惯例将深度缩放与线性专家参数增长耦合,并假设每层需要隔离的专家容量。然而,近期分析及我们的路由探测挑战了这一分配规则:在多个生产MoE模型中,用均匀随机路由替换更深层的学习top-k路由器仅使下游准确率下降1.0-1.6分。受此冗余启发,我们提出UniPool,一种MoE架构,将专家容量视为全局架构预算,用单一共享池替代逐层专家独占,由独立逐层路由器访问。为在共享下实现稳定均衡训练,我们引入池级辅助损失平衡整个池的专家利用率,并采用NormRouter提供稀疏且尺度稳定的路由。在5个LLaMA架构模型规模上,UniPool持续改善验证损失和困惑度,相比标准MoE减少验证损失高达0.0386。更重要的是,池大小成为显式深度缩放超参数:仅使用41.6%-66.7%标准专家参数预算的缩减池UniPool变体在测试规模上匹配或超越逐层MoE。


Federation of Experts: Communication Efficient Distributed Inference for Large Language Models

按KV头重组MoE为集群——单节点消除all-to-all通信,端到端延迟降低5.2倍

  • 作者: Muhammad Shahir Abdurrahman, Chun Deng, Azalia Mirhoseini, Philip Levis
  • 来源: HuggingFace Trending (1 upvote)
  • 关键贡献: 将MoE块重构为多个MoE集群,每个集群只负责一个KV头,专家并行在集群内;单节点完全消除all-to-all通信,多节点将all-to-all限制在节点内;端到端前向延迟降低5.2倍、TTFT降低3.62倍、TBT降低1.95倍,同时保持同规模MoE的生成质量。
  • 链接: arXiv | PDF
📄 Abstract 中文翻译

混合专家已成为使大语言模型计算高效的主要机制。然而在分布式设置中,token嵌入在专家间的通信是显著瓶颈。我们提出Federation of Experts(FoE)架构,将transformer层的MoE块重构为多个MoE集群。每个集群仅负责一个KV头,专家并行应用于集群内专家间。集群间通过求和同步后注意力残差,驱动下一MoE块的路由和分发。在单节点设置中,FoE完全消除all-to-all通信,因为组内所有专家位于同一GPU。在多节点设置中,FoE将all-to-all通信限制在节点内互连,显著减少通信开销。FoE实现在LongBench上显著提升推理吞吐量和延迟,端到端前向延迟降低5.2倍、TTFT降低3.62倍、TBT降低1.95倍,同时达到同规模和训练配置MoE模型可比的生成质量。


MARBLE: Multi-Aspect Reward Balance for Diffusion RL

梯度空间优化替代加权求和——独立优势估计+QP协调,多奖励维度同时提升

  • 作者: Canyu Zhao, Hao Chen, Yunze Tong et al.
  • 来源: HuggingFace Trending (33 upvotes)
  • 关键贡献: 揭示加权求和奖励的根本问题:大多数rollout只对某些奖励维度有信息量,加权求和稀释监督;提出MARBLE,在梯度空间维护独立优势估计器,通过二次规划(QP)协调为单一更新方向,无需手动调权;摊销化方案将K+1次后向传播降至接近单奖励基线成本,训练速度为基线的0.97X。
  • 链接: arXiv | PDF
📄 Abstract 中文翻译

强化学习微调已成为将扩散模型与人类偏好对齐的主流方法。然而评估图像本质上是多维任务,需要同时优化多个评估标准。现有处理多奖励的方法要么训练每个奖励一个专家模型,优化加权求和奖励R(x)=Σw_k R_k(x),或按手工阶段调度顺序微调。这些方法要么无法产生可在所有奖励上联合训练的统一模型,要么需要大量手动调优的顺序训练。我们发现失败源于朴素加权求和奖励聚合——它遭受样本级不匹配,因为大多数rollout是专家样本,对某些奖励维度高度有信息但对其他维度无关,加权求和稀释了监督。为此我们提出MARBLE,一种梯度空间优化框架,为每个奖励维护独立优势估计器,计算逐奖励策略梯度,通过求解二次规划问题协调为单一更新方向,无需手动调权。我们进一步提出摊销化方案,利用DiffusionNFT中损失的仿射结构,将每步成本从K+1次后向传播降至接近单奖励基线成本,配合EMA平滑稳定更新。在SD3.5 Medium的五个奖励上,MARBLE同时改善所有五个奖励维度,将最差对齐奖励的梯度余弦从加权求和下80%的mini-batch中为负变为一致为正,训练速度为基线的0.97X。


Skill1: Unified Evolution of Skill-Augmented Agents via Reinforcement Learning

单策略统一技能选择、利用和蒸馏——低频趋势归功选择,高频变化归功蒸馏

  • 作者: Yaorui Shi, Yuxin Chen, Zhengxi Lu et al.
  • 来源: HuggingFace Trending (53 upvotes)
  • 关键贡献: 提出Skill1,训练单一策略共同进化技能选择、利用和蒸馏三种能力,全部学习信号来自单一任务结果;低频趋势归功选择决策,高频变化归功蒸馏质量;在ALFWorld和WebShop上超越先前的技能基线和方法;消融证明去除任何信用信号都会退化进化。
  • 链接: arXiv | PDF
📄 Abstract 中文翻译

持久技能库允许语言模型Agent跨任务复用成功策略。维护这样的库需要三种耦合能力:Agent选择相关技能、在执行中利用它、从经验中蒸馏新技能。现有方法孤立优化这些能力或使用独立奖励源,导致部分和冲突的进化。我们提出Skill1,一个训练单一策略共同进化技能选择、利用和蒸馏的框架,朝着共享任务结果目标。策略生成查询搜索技能库、重排候选选择一个、基于它解决任务、并从轨迹蒸馏新技能。所有学习来自单一任务结果信号——低频趋势归功选择,高频变化归功蒸馏。在ALFWorld和WebShop上的实验表明Skill1超越先前的技能基线和强化学习方法。训练动态确认三种能力的共同进化,消融表明移除任何信用信号都会退化进化。


Continuous Latent Diffusion Language Model

连续潜空间扩散语言模型——层次化信息分解实现非自回归文本生成新范式

  • 作者: Hongcan Guo, Qinyu Zhao, Yian Zhao et al.
  • 来源: HuggingFace Trending (43 upvotes)
  • 关键贡献: 提出Cola DLM,通过层次信息分解将文本生成建模为:Text VAE学习稳定文本-潜变量映射→block-causal DiT在连续潜空间建模全局语义先验→条件解码生成文本;从统一马尔可夫路径视角,扩散过程执行潜先验传输而非token级观测恢复,分离全局语义组织和局部文本实现;在2B参数和2000 EFLOPs缩放曲线上验证强缩放行为。
  • 链接: arXiv | PDF
📄 Abstract 中文翻译

大语言模型在自回归范式下取得卓越成功,但高质量文本生成不必绑定固定从左到右的顺序。现有替代方案仍在联合实现生成效率、可扩展表示学习和有效全局语义建模方面挣扎。我们提出Cola DLM,一种层次潜扩散语言模型,通过层次信息分解构建文本生成。Cola DLM首先用Text VAE学习稳定文本-潜变量映射,然后用block-causal DiT在连续潜空间建模全局语义先验,最后通过条件解码生成文本。从统一马尔可夫路径视角,其扩散过程执行潜先验传输而非token级观测恢复,从而分离全局语义组织和局部文本实现。此设计产生更灵活的非自回归归纳偏置,支持连续空间中的语义压缩和先验拟合,并自然扩展到其他连续模态。通过4个研究问题、8个基准、严格匹配的~2B参数自回归和LLaDA基线以及约2000 EFLOPs缩放曲线的实验,我们识别了Cola DLM的有效整体配置并验证了其文本生成的强缩放行为。


The Granularity Axis: A Micro-to-Macro Latent Direction for Social Roles in Language Models

社会角色粒度是LLM表征空间的主轴——PC1解释52.6%方差,激活操控可因果改变粒度

  • 作者: Chonghan Qin, Xiachong Feng, Ziyun Song et al.
  • 来源: HuggingFace Trending (4 upvotes)
  • 关键贡献: 定义了社会角色粒度轴(宏观与微观角色隐藏状态均值之差),在Qwen3-8B中与角色表征空间主成分(PC1)对齐(余弦0.972),解释52.6%方差;75个角色5级粒度的91,200条响应验证投影单调递增且跨层稳定;激活操控沿该轴可在预测方向上因果移动响应粒度。
  • 链接: arXiv | PDF
📄 Abstract 中文翻译

大语言模型(LLM)常被提示扮演从个人到机构的社会角色,但其内部表征是否编码了这些角色的粒度——从微观个人经验到宏观组织、机构或国家推理——仍不清楚。我们证明它们确实如此。我们定义了基于对比的粒度轴为宏观和微观角色隐藏状态均值之差。在Qwen3-8B中,该轴与角色表征空间的主轴(PC1)对齐,余弦0.972,解释其52.6%方差,表明粒度是组织提示社会角色的主导几何轴。我们构建5个粒度级别的75个社会角色,收集91,200条角色条件响应,提取角色级隐藏状态并投影到轴上。角色投影在所有五个级别上单调递增,跨层、提示变体、端点定义、保留分割和分数过滤子集稳定,并迁移到Llama-3.1-8B-Instruct。该轴也具有因果相关性:沿其激活操控在预测方向上移动响应粒度,Llama在正面操控下从5点宏观量表的2.00移至3.17。


ZAYA1-8B Technical Report

700M活跃参数MoE推理模型——全栈AMD训练+四阶段RL级联+Markovian RSA测试时计算

  • 作者: Robert Washbourne, Rishi Iyer, Tomas Figliolia et al.
  • 来源: HuggingFace Trending (1 upvote)
  • 关键贡献: 700M活跃/8B总参数的MoE推理模型,全栈AMD计算平台从头训练;四阶段RL级联:推理热身→400任务RLVE-Gym→数学代码RL(含测试时计算轨迹和合成代码环境)→行为RL;Markovian RSA递归聚合并行推理轨迹,仅携带4K token尾部,将AIME'25提升至91.9%、HMMT'25至89.6%。
  • 链接: arXiv | PDF
📄 Abstract 中文翻译

我们展示ZAYA1-8B,一个专注推理的MoE模型,700M活跃和8B总参数,基于Zyphra的MoE++架构。ZAYA1-8B的核心预训练、中期训练和监督微调(SFT)在全栈AMD计算、网络和软件平台上执行。在不到1B活跃参数下,ZAYA1-8B在多个挑战性数学和编码基准上匹配或超越DeepSeek-R1-0528,并与更大开源推理模型保持竞争力。ZAYA1-8B从头为推理训练,使用答案保留修剪方案从预训练开始包含推理数据。后训练使用四阶段RL级联:数学和拼图的推理热身;400任务RLVE-Gym课程;带测试时计算轨迹和基于竞赛编程参考的合成代码环境的数学和代码RL;以及聊天和指令遵循的行为RL。我们还引入Markovian RSA,一种测试时计算方法,递归聚合并行推理轨迹,在轮次间仅携带有限长度的推理尾部。在TTC评估中,Markovian RSA将ZAYA1-8B提升至AIME'25的91.9%和HMMT'25的89.6%,仅携带4K token尾部,缩小了与更大推理模型包括Gemini-2.5 Pro、DeepSeek-V3.2和GPT-5-High的差距。


Relit-LiVE: Relight Video by Jointly Learning Environment Video

不依赖精确本征分解的视频重光照——联合预测重光照视频和环境贴图

  • 作者: Weiqing Xiao, Hong Li, Xiuyu Yang et al.
  • 来源: HuggingFace Trending (14 upvotes)
  • 关键贡献: 在渲染过程中显式引入原始参考图像恢复本征表示中丢失或损坏的场景线索;提出环境视频预测公式,在单一扩散过程中同时生成重光照视频和每帧对齐相机视点的环境贴图;无需已知相机姿态即可支持动态光照和相机运动。
  • 链接: arXiv | PDF
  • 代码: https://github.com/zhuxing0/Relit-LiVE
📄 Abstract 中文翻译

近期进展表明大规模视频扩散模型可作为神经渲染器——先将视频分解为本征场景表示,再在新光照下前向渲染。然而该范式从根本上依赖精确的本征分解,这对真实视频仍高度不可靠,常导致重光照中出现扭曲外观、破损材质和累积时序伪影。我们提出Relit-LiVE,一种无需已知相机姿态即可产生物理一致、时序稳定结果的视频重光照框架。核心洞察是在渲染过程中显式引入原始参考图像,使模型恢复本征表示中不可避免地丢失或损坏的关键场景线索。此外,我们提出环境视频预测公式,在单一扩散过程中同时生成重光照视频和与每帧相机视点对齐的环境贴图。这种联合预测强制几何-光照对齐,自然支持动态光照和相机运动。广泛实验表明Relit-LiVE在合成和真实基准上持续超越SOTA视频重光照和神经渲染方法。


A²TGPO: Agentic Turn-Group Policy Optimization with Adaptive Turn-level Clipping

解决Agent RL中信息增益归一化、累积和裁剪三大系统性问题——回合组归一化+方差缩放+自适应裁剪

  • 作者: Dingwei Chen, Zefang Zong, Zhipeng Ma et al.
  • 来源: HuggingFace Trending (8 upvotes)
  • 关键贡献: 利用信息增益(IG)作为内在过程信号,但重新设计其归一化(回合组内归一化)、累积(方差缩放折扣累积)和消费(自适应回合级裁剪);解决异质位置上下文归一化扭曲、可变项数累积导致优势幅度漂移、固定裁剪范围忽略回合间IG信号差异三大问题。
  • 链接: arXiv | PDF
📄 Abstract 中文翻译

代理LLM的强化学习通常依赖稀疏轨迹级结果奖励,使评估多轮交互中各工具调用的贡献变得困难。现有过程信用分配方法要么依赖额外的外部过程奖励模型增加消耗,要么基于树结构的rollout仅重新分配结果信号同时约束轨迹多样性。一个有前景的替代方案利用策略预测真实标签概率的逐回合变化——信息增益(IG)——作为内在过程信号。然而,在RL训练循环中利用IG信号面临三个系统性挑战:跨面对异质位置上下文的回合归一化会扭曲各回合的相对地位,累积可变数量的项导致优势幅度随轨迹深度漂移,固定裁剪范围对具有截然不同IG信号的回合同等治理。我们提出A²TGPO,保留IG作为内在信号但重新设计其归一化、累积和消费方式:(i)回合组归一化;(ii)方差缩放折扣累积;(iii)基于归一化IG调节每回合裁剪范围。


Nonsense Helps: Prompt Space Perturbation Broadens Reasoning Exploration

Lorem Ipsum废话前缀打破零优势困境——低困惑度扰动解锁正交推理路径

  • 作者: Langlin Huang, Chengsong Huang, Jinyuan Li et al.
  • 来源: HuggingFace Trending (20 upvotes)
  • 关键贡献: 发现GRPO在复杂任务中频发"零优势问题"(所有采样rollout失败→相对优势归零→无训练信号);提出LoPE,在重采样前向提示添加Lorem Ipsum词汇随机组装的序列作为扰动;1.7B/4B/7B模型上显著优于原始提示重采样;其他低困惑度拉丁随机序列也有效。
  • 链接: arXiv | PDF
📄 Abstract 中文翻译

带可验证奖励的强化学习,特别是GRPO,显著推进了LLM的推理能力。然而在复杂任务中,GRPO频繁遭遇"零优势问题":当查询的所有采样rollout都失败时,相对优势归零,模型失去有效训练信号,浪费训练数据和计算预算。虽然简单增加采样预算是常见补救,但静态采样策略内在约束了推理探索,限制了成功率。本文提出LoPE,一种简单有效的训练框架来打破探索瓶颈。我们认为任务无关的提示空间扰动足以移动模型输出分布,为困难问题解锁正交推理路径。具体而言,LoPE在重采样前向提示添加由Lorem Ipsum词汇(伪拉丁占位文本)随机组装的序列。1.7B、4B和7B模型上的实验表明LoPE显著优于用原始提示重采样。进一步分析揭示其他低困惑度拉丁随机序列也是有效扰动。


AI Agents

SkillRet: A Large-Scale Benchmark for Skill Retrieval in LLM Agents

17K技能+63K训练样本的技能检索基准——现有检索器在大规模技能库上表现远未解决

  • 作者: Hongcheol Cho, Ryangkyung Kang, Youngeun Kim
  • 来源: HuggingFace Trending (1 upvote)
  • 关键贡献: 引入SkillRet,包含17,810个公开Agent技能、结构化语义标签和两级分类体系(6大类18子类);提供63,259训练样本和4,997评估查询(不相交技能池);任务特定微调将NDCG@10提升+13.1(vs最强先前检索器)和+16.9(vs最强开箱即用检索器)。
  • 链接: arXiv | PDF
📄 Abstract 中文翻译

随着LLM Agent越来越多地部署大型可复用技能库,为用户请求选择正确技能已成为关键系统挑战。在小库中,用户可按名称显式调用技能,但随着技能生态在紧张上下文和延迟预算下增长,此假设不再成立。尽管具有实际重要性,技能检索仍研究不足,基准有限且对真实技能库上的检索行为理解甚少。为填补此空白,我们引入SkillRet,一个LLM Agent技能检索的大规模基准。SkillRet包含17,810个公开Agent技能,组织有结构化语义标签和6大类18子类的两级分类体系。它提供63,259训练样本和4,997评估查询(不相交技能池),支持基准测试和检索导向训练。跨多种检索器,我们发现技能检索远未解决:开箱即用模型在真实大规模技能库上挣扎,先前技能检索模型仍留有大量改进空间。任务特定微调在SkillRet上大幅提升性能,NDCG@10比最强先前检索器提升+13.1,比最强开箱即用检索器提升+16.9。


MiA-Signature: Approximating Global Activation for Long-Context Understanding

认知科学启发的压缩全局激活表征——子模选择高层概念+工作记忆迭代精炼

  • 作者: Yuqing Li, Jiangnan Li, Mo Yu et al.
  • 来源: HuggingFace Trending (37 upvotes)
  • 关键贡献: 受认知科学中全局点火启发,提出MiA-Signature——查询诱导的全局激活模式的压缩表征;通过子模选择覆盖激活上下文空间的高级概念,可选工作记忆轻量迭代更新;将MiA-Signature作为条件信号集成到RAG和Agent系统中,在多个长上下文理解任务上获得一致性能提升。
  • 链接: arXiv | PDF
📄 Abstract 中文翻译

认知科学中越来越多的研究表明,可报告的意识访问与分布式记忆系统上的全局点火相关,而此类激活仅部分可访问,因为个体无法直接访问或枚举所有激活内容。这种张力暗示一种可能机制:认知可能依赖一种压缩表征来近似激活对下游处理的全局影响。受此启发,我们引入Mindscape Activation Signature(MiA-Signature),查询诱导的全局激活模式的压缩表征。在LLM系统中,这通过基于子模的选择覆盖激活上下文空间的高级概念来实例化,可选通过工作记忆轻量迭代更新精炼。所得MiA-Signature作为条件信号近似完整激活状态的效果,同时保持计算可行。将MiA-Signature集成到RAG和Agent系统中在多个长上下文理解任务上产生一致性能提升。


SafeHarbor: Hierarchical Memory-Augmented Guardrail for LLM Agent Safety

层次记忆增强安全护栏——对抗生成+信息熵自演化,精准边界不误杀

  • 作者: Zhe Liu, Zonghao Ying, Wenxin Zhang et al.
  • 来源: HuggingFace Trending
  • 关键贡献: 通过增强对抗生成提取上下文感知防御规则;设计本地层次记忆系统动态注入规则,无需训练即插即用;引入基于信息熵的自演化机制,通过动态节点分裂和合并持续优化记忆结构;在GPT-4o上实现63.6%良性效用同时保持>93%有害请求拒绝率。
  • 链接: arXiv | PDF
  • 代码: https://github.com/ljj-cyber/SafeHarbor
📄 Abstract 中文翻译

随着基础模型快速发展,LLM Agent展现了日益强大的工具使用能力。然而这种熟练性引入了重大安全风险,恶意行为者可操纵Agent执行工具生成有害内容。虽然现有防御机制有效,但它们常遭受过度拒绝问题——增加安全严格性会损害Agent在良性任务上的效用。为缓解此权衡,我们提出SafeHarbor,一种为LLM Agent建立精准决策边界的新框架。不同于静态指导方针,SafeHarbor通过增强对抗生成提取上下文感知防御规则。我们设计本地层次记忆系统用于动态规则注入,提供无需训练、高效、即插即用的解决方案。此外,我们引入基于信息熵的自演化机制,通过动态节点分裂和合并持续优化记忆结构。广泛实验表明SafeHarbor在模糊良性任务和显式恶意攻击上都达到SOTA性能,在GPT-4o上实现了63.6%的峰值良性效用同时保持超过93%的有害请求拒绝率。


When to Trust Imagination: Adaptive Action Execution for World Action Models

机器人何时该相信自己的想象?轻量验证器实现自适应动作块大小

  • 作者: Rui Wang, Yue Zhang, Jiehong Lin et al.
  • 来源: HuggingFace Trending (33 upvotes)
  • 关键贡献: 将自适应WAM执行建模为未来-现实验证问题——想象可靠时执行更长,现实偏离想象时提前重规划;提出FFDC轻量验证器,联合推理预测动作、视觉动态、真实观测和语言指令;在RoboTwin上减少69.10%前向传播和34.02%执行时间,同时提升2.54%成功率;真实世界实验成功率提升35%。
  • 链接: arXiv | PDF
📄 Abstract 中文翻译

世界动作模型(WAM)近期成为机器人操作的有前景范式,通过联合预测未来视觉观测和未来动作。然而当前WAM通常在每次模型推理后执行固定数量的预测动作,使机器人无法判断想象未来是否与实际物理rollout一致。本文将自适应WAM执行建模为未来-现实验证问题:当WAM预测的未来仍可靠时,机器人应执行更长时间;当现实偏离想象时应提前重规划。为此我们提出Future Forward Dynamics Causal Attention(FFDC),一种轻量验证器,联合推理预测未来动作、预测视觉动态、真实观测和语言指令,估计剩余动作rollout是否仍可信任。FFDC使自适应动作块大小成为预测-观测一致性的涌现结果,保持长视野执行的效率同时恢复接触丰富或困难阶段的响应性。我们进一步引入Mixture-of-Horizon Training改善长视野轨迹覆盖。在RoboTwin基准和真实世界中的实验表明,我们的方法实现了强鲁棒性-效率权衡。


其他值得关注

Sparkle: Realizing Lively Instruction-Guided Video Background Replacement via Decoupled Guidance

前景/背景解耦指导的视频背景替换——140K数据对+最大专属评估基准

  • 作者: Ziyun Zeng, Yiqi Lin, Guoqiang Liang, Mike Zheng Shou
  • 来源: HuggingFace Trending (1 upvote)
  • 关键贡献: 追溯视频背景替换质量下降根因为数据合成中缺乏精确背景指导;设计可扩展管线以解耦方式生成前景和背景指导+严格质量过滤;构建Sparkle数据集(~140K视频对,5大背景替换主题)和Sparkle-Bench(迄今最大背景替换评估基准)。
  • 链接: arXiv | PDF
  • 代码: https://showlab.github.io/Sparkle/
📄 Abstract 中文翻译

近年来,Senorita-2M等开源工作推动了视频编辑朝自然语言指令发展。然而当前公开数据集主要聚焦局部编辑或风格迁移,这些任务在很大程度上保留原始场景结构且更容易扩展。相比之下,背景替换——影视制作和广告等创意应用的核心任务——需要合成全新的时序一致场景同时保持准确的前景-背景交互,使大规模数据生成更具挑战。本文将此质量退化追溯到数据合成中缺乏精确背景指导。据此我们设计可扩展管线,以解耦方式生成前景和背景指导并严格质量过滤。基于此管线,我们引入Sparkle,包含约140K视频对的数据集,涵盖5大常见背景替换主题,以及Sparkle-Bench——迄今最大的背景替换评估基准。实验表明我们的数据集和在其上训练的模型在OpenVE-Bench和Sparkle-Bench上都显著超越所有现有基线。


日报由爱弥斯自动生成 | 数据来源: HuggingFace Daily Papers

Licensed under CC BY-NC-SA 4.0