AI Paper Daily | 2026-05-12

今日概览

共收录 19 篇论文 | Audio LLM: 0篇 | LLM Training: 11篇 | AI Agents: 3篇 | 其他值得关注: 1篇来源: HuggingFace(19)

⚠️ 今日无 Audio LLM 方向新论文入选。arXiv API 因 429 限流未能抓取到补充论文，HuggingFace 来源中暂无音频方向高分论文。

重点推荐 ⭐

LLMs Improving LLMs: Agentic Discovery for Test-Time Scaling

用智能体自动发现测试时扩展策略，39.9美元发现超越手工设计的推理控制策略

作者: Tong Zheng et al.
来源: HuggingFace Trending (53 upvotes)
链接: arXiv | PDF
关键贡献: 提出 AutoTTS 框架，将测试时扩展策略的发现从手工设计转变为自动搜索。通过控制器合成方式，让智能体自动学习何时分支、继续、探测、剪枝或停止，仅用 39.9 美元和 160 分钟就发现了超越强人工设计基线的策略。
相关技术: Test-Time Scaling, Controller Synthesis, Agentic Discovery, Reasoning Trajectory, Width-Depth TTS
代码/权重: 已开源 ✅

📄 Abstract 中文翻译

测试时扩展（Test-Time Scaling, TTS）已成为通过在推理期间分配额外计算来提升大语言模型性能的有效方法。然而，现有的 TTS 策略大多是手工设计的：研究人员凭直觉手动设计推理模式并调整启发式方法，导致计算分配空间的很大一部分未被探索。我们提出了一种环境驱动的框架 AutoTTS，改变了研究人员设计的目标：从单个 TTS 启发式方法变为可以自动发现 TTS 策略的环境。AutoTTS 的关键在于环境构建：发现环境必须使控制空间可处理，并为 TTS 搜索提供廉价、频繁的反馈。作为具体实例，我们将宽度-深度 TTS 形式化为基于预收集的推理轨迹和探测信号的控制器综合问题，控制器决定何时分支、继续、探测、剪枝或停止，并且可以在不需要重复 LLM 调用的情况下廉价评估。我们进一步引入 beta 参数化使搜索可处理，以及细粒度执行轨迹反馈来提高发现效率，帮助智能体诊断 TTS 程序失败的原因。在数学推理基准测试上的实验表明，发现的策略在整体准确率-成本权衡上优于强人工设计基线。发现的策略泛化到留出基准测试和模型规模，而整个发现过程仅花费 39.9 美元和 160 分钟。我们的数据和代码将在 https://github.com/zhengkid/AutoTTS 开源。

HyperEyes: Dual-Grained Efficiency-Aware Reinforcement Learning for Parallel Multimodal Search Agents

并行多模态搜索智能体，准确率提升 9.9% 同时减少 5.3 倍工具调用轮次

作者: Guankai Li et al.
来源: HuggingFace Trending (57 upvotes)
链接: arXiv | PDF
关键贡献: 提出 HyperEyes 并行多模态搜索智能体，将视觉定位和检索融合为单个原子操作，支持多实体并发搜索。引入 TRACE 奖励函数和双粒度效率感知强化学习框架，在 6 个基准测试上以 5.3 倍更少的工具调用实现 9.9% 的准确率提升。
相关技术: Parallel Multimodal Search, Reinforcement Learning, Tool-use, Visual Grounding, Efficiency-Aware Training
代码/权重: 未提及

📄 Abstract 中文翻译

现有的多模态搜索智能体按顺序处理目标实体，每次工具调用处理一个实体，当查询分解为独立子检索时会累积冗余的交互轮次。我们认为有效的多模态智能体应该搜索得更宽而不是更长：在一轮内并发派发多个基于定位的查询。为此，我们提出 HyperEyes，一个并行多模态搜索智能体，将视觉定位和检索融合为单个原子操作，支持跨多个实体并发搜索，同时将推理效率作为一等训练目标。HyperEyes 分两阶段训练。对于冷启动监督，我们开发了并行友好数据合成流程，覆盖视觉多实体和文本多约束查询，通过渐进拒绝采样策展效率导向轨迹。在此基础上，我们的核心贡献是一个双粒度效率感知强化学习框架，在两个层面运作。在宏观层面，我们提出 TRACE（工具使用参考自适应成本效率），一种轨迹级奖励，其参考值在训练期间单调收紧，以抑制多余的工具调用而不限制真正的多跳搜索。在微观层面，我们适配在线策略蒸馏，从外部教师向失败轨迹注入密集的 token 级纠正信号，缓解稀疏结果奖励的信用分配不足问题。由于现有基准测试仅将准确率作为唯一评估指标，忽略了推理成本，我们引入 IMEB，一个人工策展的 300 实例基准测试，联合评估搜索能力和效率。在六个基准测试上，HyperEyes-30B 以平均 5.3 倍更少的工具调用轮次超越最强可比开源智能体 9.9% 的准确率。

Mean Mode Screaming: Mean-Variance Split Residuals for 1000-Layer Diffusion Transformers

发现并解决千层扩散 Transformer 的均值主导崩溃问题，实现极端深度稳定训练

作者: Pengqi Lu
来源: HuggingFace Trending (101 upvotes)
链接: arXiv | PDF
关键贡献: 通过机制审计发现扩散 Transformer 在极端深度下的"均值模式尖叫"（MMS）崩溃现象，提出 MV-Split 残差连接方案，成功稳定训练 400 层和 1000 层 DiT，避免无稳定基线的发散崩溃。
相关技术: Diffusion Transformers, Residual Connection, Deep Network Training, Mean-Variance Split, LayerScale
代码/权重: 未提及

📄 Abstract 中文翻译

将扩散 Transformer（DiT）扩展到数百层引入了一个结构性脆弱性：网络可能进入一种静默的、均值主导的崩溃状态，这种状态会使 token 表示同质化并抑制中心化变化。通过机制审计，我们将这种崩溃的触发事件隔离为均值模式尖叫（Mean Mode Screaming, MMS）。MMS 甚至可能在训练看起来稳定时发生，残差写入器上的均值相干反向冲击会打开深层残差分支，驱动网络进入均值主导状态。我们表明这种行为由这些梯度分解为均值相干分量和中心化分量的精确分解驱动，并因值同质化后 Softmax 雅可比矩阵零空间对注意力逻辑梯度的结构性抑制而加剧。为了解决这个问题，我们提出均值-方差分裂（Mean-Variance Split, MV-Split）残差，它结合了单独增益的中心化残差更新和泄漏主干均值替换。在 400 层单流 DiT 上，MV-Split 阻止了导致无稳定基线崩溃的发散；它紧密跟踪基线的崩溃前轨迹，同时在完整调度期间显著优于 token 各向同性门控方法如 LayerScale。最后，我们展示了一个 1000 层 DiT 作为边界规模的规模验证运行，确立了该架构在极端深度下仍可稳定训练。

Listwise Policy Optimization: Group-based RLVR as Target-Projection on the LLM Response Simplex

揭示群体策略梯度的几何结构，提出列表策略优化实现单调改进和多样性保持

作者: Yun Qu et al.
来源: HuggingFace Trending (57 upvotes)
链接: arXiv | PDF
关键贡献: 揭示现有群体策略梯度方法共享几何结构——隐式定义响应单纯形上的目标分布并通过一阶近似投影。提出列表策略优化（LPO）显式执行目标投影，提供单调改进、有界零和自纠正梯度，并在保持多样性的同时提升训练性能。
相关技术: Reinforcement Learning with Verifiable Rewards, Policy Gradient, Response Simplex, Divergence Minimization, Group-based RL
代码/权重: 未提及

📄 Abstract 中文翻译

带可验证奖励的强化学习（RLVR）已成为大语言模型后训练以激发推理能力的标准方法。在现有方案中，基于群体的策略梯度很普遍，它对每个提示采样一组响应并通过群体相对优势信号更新策略。这项工作揭示了这些优化策略共享一个共同的几何结构：每个都在响应单纯形上隐式定义目标分布，并通过一阶近似向其投影。基于这一洞见，我们提出列表策略优化（Listwise Policy Optimization, LPO）来显式执行目标投影，它通过将近端 RL 目标限制在响应单纯形上来解密隐式目标，然后通过精确散度最小化投影策略。该框架提供：(i) 列表目标上的单调改进，具有有界、零和、自纠正的投影梯度；(ii) 通过解耦投影步骤在散度选择上具有灵活性，具有不同的结构特性。在多样化推理任务和 LLM 骨干网络上，LPO 在匹配目标下持续优于典型策略梯度基线的训练性能，同时内在地保持优化稳定性和响应多样性。

🔊 Audio LLM

今日无 Audio LLM 方向论文入选。

🧠 LLM Training

IntentGrasp: A Comprehensive Benchmark for Intent Understanding

20 个 LLM 中 17 个在 Gem Set 上不如随机猜测，意图理解基准揭示巨大提升空间

作者: Yuwei Yin, Chuyuan Li, Giuseppe Carenini
来源: HuggingFace Trending (6 upvotes)
链接: arXiv | PDF
关键贡献: 构建 IntentGrasp 大规模意图理解基准，包含 262,759 训练实例和 12,909 测试用例。发现 20 个 LLM 中 17 个在 Gem Set 上表现低于随机猜测基线（15.2%），提出意图微调（IFT）带来 30+ F1 点提升。
相关技术: Intent Understanding, Benchmark Construction, Intentional Fine-Tuning, Cross-Domain Generalization, LLM Evaluation
代码/权重: 未提及

📄 Abstract 中文翻译

准确理解语音、对话和写作背后的意图对于开发有用的大语言模型（LLM）助手至关重要。本文介绍 IntentGrasp，一个用于评估 LLM 意图理解能力的综合基准。IntentGrasp 源自 49 个跨 12 个不同领域的高质量开放许可语料库，通过源数据集策展、意图标签上下化和任务格式统一构建。IntentGrasp 包含一个 262,759 实例的大规模训练集和两个评估集：一个 12,909 测试用例的全集和一个更平衡、更具挑战性的 470 用例 Gem 集。对 7 个家族的 20 个 LLM 进行广泛评估（包括 GPT-5.4、Gemini-3.1-Pro 和 Claude-Opus-4.7 等前沿模型），结果显示不令人满意的性能，全集团分低于 60%，Gem 集得分低于 25%。值得注意的是，20 个测试模型中有 17 个在 Gem 集上表现低于随机猜测基线（15.2%），而估计的人类表现约为 81.1%，显示出巨大的改进空间。为了增强这种能力，本文提出意图微调（Intentional Fine-Tuning, IFT），在 IntentGrasp 训练集上微调模型，在全集团获得 30+ F1 点增益，在 Gem 集获得 20+ 点增益。留一领域外（Lodo）实验进一步证明了 IFT 的强跨领域泛化能力，验证了它是大幅提升 LLM 意图理解的有前景方法。

Memory-Efficient Looped Transformer: Decoupling Compute from Memory in Looped Language Models

解耦推理深度与内存消耗，循环 Transformer 实现常数内存迭代推理

作者: Victor Conchello Vendrell et al.
来源: HuggingFace Trending (1 upvote)
链接: arXiv | PDF
关键贡献: 提出 MELT 架构，通过在推理循环间共享单层 KV 缓存并使用可学习门控机制更新，实现常数内存迭代推理。仅需轻量后训练过程，即可在不牺牲 LoopLM 性能的情况下达到与标准 LLM 相当的内存占用。
相关技术: Looped Transformer, Memory-Efficient Inference, KV Cache, Iterative Reasoning, Knowledge Distillation
代码/权重: 未提及

📄 Abstract 中文翻译

循环 LLM 架构已成为改进推理的有前景方法，因为它们可以在嵌入空间中进行多步计算而无需生成中间 token。Ouro 等模型通过迭代更新内部表示同时跨迭代保留标准键值（KV）缓存来执行推理，导致内存消耗随推理深度线性增长。因此，增加推理迭代次数可能导致过高的内存使用，限制了此类架构的实际可扩展性。在这项工作中，我们提出内存高效循环 Transformer（Memory-Efficient Looped Transformer, MELT），一种解耦推理深度与内存消耗的新架构。MELT 不是每层每循环使用标准 KV 缓存，而是每层维护一个跨推理循环共享的单一 KV 缓存。该缓存通过可学习门控机制随时间更新。为了在此架构下实现稳定高效的训练，我们提出使用分块训练的两阶段程序：从 LoopLM 起始模型到 MELT 的插值过渡，然后是注意力对齐蒸馏。实证表明，从预训练 Ouro 参数微调的 MELT 模型优于相当规模的标准 LLM，同时保持与这些模型相当的内存占用，远小于 Ouro 的内存占用。总体而言，MELT 实现了常数内存迭代推理而不牺牲 LoopLM 性能，仅使用轻量后训练过程。

Your Language Model is Its Own Critic: Reinforcement Learning with Value Estimation from Actor’s Internal States

从策略模型内部状态获取价值估计，POISE 以极低成本替代独立 critic 模型

作者: Yunho Choi et al.
来源: HuggingFace Trending (12 upvotes)
链接: arXiv | PDF
关键贡献: 提出 POISE 方法，利用策略模型前向传播中已计算的内部信号（隐藏状态和 token 熵统计）预测期望可验证奖励，以极低成本获取基线。引入跨展开构造保持梯度无偏性，单展开估计即实现稳定学习。
相关技术: Reinforcement Learning with Verifiable Rewards, Value Estimation, Internal States, Policy Gradient, Baseline Estimation
代码/权重: 未提及

📄 Abstract 中文翻译

带可验证奖励的强化学习（RLVR）对于大型推理模型依赖于基线估计进行方差缩减，但现有方法付出了沉重代价：PPO 需要策略模型规模的 critic，而 GRPO 需要每个提示多次展开来保持其经验群体均值稳定。我们引入带内部状态价值估计的策略优化（POISE），通过使用策略前向传播期间已计算的策略模型内部信号，以可忽略的成本获取基线。一个轻量探测器从提示和生成轨迹的隐藏状态以及 token 熵统计预测期望可验证奖励，并与策略一起在线训练。为了在使用轨迹条件特征时保持梯度无偏性，我们引入跨展开构造，从独立展开的内部状态预测每个展开的价值。因为 POISE 仅使用单展开估计提示价值，它能在固定计算预算下实现更高的提示多样性用于训练。这减少了梯度方差以实现更稳定的学习，也消除了检测零优势提示的采样开销。在 Qwen3-4B 和 DeepSeek-R1-Distill-Qwen-1.5B 上的数学推理基准测试中，POISE 在需要更少计算的情况下匹配 DAPO。此外，其价值估计器表现出与独立 LLM 规模价值模型相似的性能，并泛化到各种可验证任务。

EditTransfer++: Toward Faithful and Efficient Visual-Prompt-Guided Image Editing

视觉提示引导图像编辑，实现忠实迁移和高效推理

作者: Lan Chen et al.
来源: HuggingFace Trending (0 upvotes)
链接: arXiv | PDF
关键贡献: 提出 EditTransfer++ 框架，通过文本解耦训练策略和最优-最差对比细化机制提高视觉提示忠实度，引入条件压缩复用策略支持 1024 像素高效生成，在现有基准和新提出的 EditTransfer-Bench 上达到 SOTA 忠实度。
相关技术: Visual-Prompt-Guided Editing, Diffusion Transformer, Text-Decoupled Training, Contrastive Refinement, In-Context Editing
代码/权重: 未提及

📄 Abstract 中文翻译

视觉提示引导编辑迁移旨在直接从示例对学习图像变换，提供比纯文本驱动方法更精确可控的编辑。然而，现有基于扩散 Transformer 的方法由于任务与骨干之间的结构不匹配，往往无法忠实复现演示的编辑，包括对文本条件的预训练偏置和采样过程中固有的随机不稳定性。为弥合这一差距，我们提出 EditTransfer++，一个结合渐进结构化训练和高效条件方案来同时提高视觉提示忠实度和推理效率的框架。我们首先通过文本解耦训练策略缓解文本主导，在微调期间移除文本条件，迫使模型仅从视觉证据推断变换，同时在推理时仍支持可选文本指导。在此视觉基础模型之上，最优-最差对比细化机制重塑去噪轨迹以抑制不忠实生成并提高跨随机种子的一致性。为缓解高分辨率上下文编辑的计算瓶颈，我们进一步引入条件压缩复用策略，减少 token 冗余并支持 1024 像素长边图像的高效生成。在现有基准和提出的 EditTransfer-Bench 上的大量实验表明，EditTransfer++ 以比先前方法明显更快的推理实现了最先进的视觉提示忠实度。

Scaling Continual Learning to 300+ Tasks with Bi-Level Routing Mixture-of-Experts

首个扩展到 300+ 非重叠任务的持续学习器，双层路由 MoE 注入判别性和全面表示

作者: Meng Lou, Yunxiang Fu, Yizhou Yu
来源: HuggingFace Trending (7 upvotes)
链接: arXiv | PDF
关键贡献: 提出 CaRE 持续学习框架，采用双层路由 MoE（BR-MoE）机制，通过路由选择和专家路由两个阶段动态激活任务相关组件。引入 OmniBenchmark-1K 数据集，首次实现 100-300+ 非重叠任务的持续学习。
相关技术: Continual Learning, Mixture-of-Experts, Bi-Level Routing, Class-Incremental Learning, Pre-trained Model
代码/权重: 已开源 ✅

📄 Abstract 中文翻译

基于预训练模型（PTM）的持续学习，尤其是类增量学习（CIL），近年来引起了大量研究兴趣。然而，如何在极长任务序列上有效学习判别性和全面特征表示，同时保持稳定性和可塑性，仍是一个开放问题。我们提出 CaRE，一个可扩展的持续学习器，采用高效双层路由专家混合（BR-MoE）。BR-MoE 的核心思想是一个双层路由机制：路由选择阶段动态激活相关任务特定路由器，随后是专家路由阶段动态激活和聚合专家，旨在向每个中间网络层注入判别性和全面表示。另一方面，我们引入一个具有挑战性的数据集 OmniBenchmark-1K，用于在包含数百个任务的极长任务序列上评估 CIL 性能。大量实验表明，CaRE 在各种数据集和任务设置上展示了领先的性能，包括具有经典 CIL 设置（如 5-20 任务）的常用 CIL 数据集。据我们所知，CaRE 是第一个扩展到极长任务序列（从 100 到超过 300 个非重叠任务）的持续学习器，同时在此类任务序列上大幅优于所有基线。代码和数据集已在 https://github.com/LMMMEng/CaRE 公开发布。

Flow-OPD: On-Policy Distillation for Flow Matching Models

首个将在线策略蒸馏引入流匹配模型，GenEval 分数从 63 提升至 92

作者: Zhen Fang et al.
来源: HuggingFace Trending (73 upvotes)
链接: arXiv | PDF
关键贡献: 提出 Flow-OPD，首个将在线策略蒸馏（OPD）引入流匹配模型的统一后训练框架。通过两阶段对齐策略和流式冷启动方案，在 Stable Diffusion 3.5 Medium 上将 GenEval 分数从 63 提升至 92，OCR 准确率从 59 提升至 94。
相关技术: Flow Matching, On-Policy Distillation, Text-to-Image Generation, Multi-Task Alignment, GRPO Fine-tuning
代码/权重: 未提及

📄 Abstract 中文翻译

现有流匹配（FM）文本到图像模型在多任务对齐下存在两个关键瓶颈：标量值奖励引起的奖励稀疏性，以及联合优化异构目标导致的梯度干扰，共同引发竞争指标的"跷跷板效应"和普遍的奖励黑客。受大语言模型社区在线策略蒸馏（OPD）成功的启发，我们提出 Flow-OPD，首个将在线策略蒸馏整合到流匹配模型的统一后训练框架。Flow-OPD 采用两阶段对齐策略：首先通过单奖励 GRPO 微调培养领域专业化教师模型，使每个专家在隔离状态下达到性能上限；然后通过流式冷启动方案建立稳健初始策略，通过在线采样、任务路由标记和密集轨迹级监督的三步编排，将异构专业知识无缝整合到单一学生模型中。我们进一步引入流形锚点正则化（MAR），利用任务无关教师提供全数据监督，将生成锚定到高质量流形，有效缓解纯 RL 驱动对齐中常见的审美退化。基于 Stable Diffusion 3.5 Medium，Flow-OPD 将 GenEval 分数从 63 提升至 92，OCR 准确率从 59 提升至 94，相比普通 GRPO 总体提升约 10 分，同时保持图像保真度和人类偏好对齐，并展现涌现的"超越教师"效应。

BalCapRL: A Balanced Framework for RL-Based MLLM Image Captioning

平衡多目标的图像描述强化学习框架，DCScore 提升 13.6 分

作者: Shaokai Ye et al.
来源: HuggingFace Trending (1 upvote)
链接: arXiv | PDF
关键贡献: 提出平衡的 RL 框架联合优化效用感知正确性、参考覆盖度和语言质量。应用 GDPO 风格奖励解耦归一化和长度条件奖励掩码，在 LLaVA-1.5-7B 和 Qwen2.5-VL 上实现 DCScore +13.6、CaptionQA +9.0、CapArena +29.0 的峰值增益。
相关技术: Image Captioning, Reinforcement Learning, Multi-Objective Optimization, MLLM, Reward Decomposition
代码/权重: 未提及

📄 Abstract 中文翻译

图像描述是计算机视觉最基本的任务之一。由于其开放性质，它在多模态大语言模型（MLLM）时代受到了重大关注。在追求更详细准确描述的过程中，近期工作越来越多地转向强化学习（RL）。然而，现有的描述 RL 方法和评估指标往往强调描述质量的狭隘概念，导致描述核心维度之间的权衡。例如，效用导向目标可能鼓励嘈杂、幻觉或过长的描述，改善下游问答但损害流畅性，而竞技场式目标可能偏好流利但通用的描述，实用性有限。为解决这个问题，我们提出一个更平衡的 RL 框架，联合优化效用感知正确性、参考覆盖度和语言质量。为了有效优化由此产生的连续多目标奖励公式，我们将 GDPO 风格的奖励解耦归一化应用于连续值描述奖励，并表明它优于普通 GRPO。此外，我们引入长度条件奖励掩码，产生更适合描述的长度惩罚。在 LLaVA-1.5-7B 和 Qwen2.5-VL 3B 和 7B 基础模型上，我们的方法持续改善描述质量，跨不同模型的峰值增益为 +13.6 DCScore、+9.0 CaptionQA 和 +29.0 CapArena。

UniSD: Towards a Unified Self-Distillation Framework for Large Language Models

统一自蒸馏框架系统研究组件交互，优于基座模型 +5.4 分

作者: Yiqiao Jin et al.
来源: HuggingFace Trending (10 upvotes)
链接: arXiv | PDF
关键贡献: 提出 UniSD 统一框架系统研究自蒸馏，整合多教师共识、EMA 教师稳定化、token 级对比学习、特征匹配和散度裁剪。揭示自蒸馏何时优于静态模仿、哪些组件驱动增益，构建 UniSDfull 达到最强整体性能。
相关技术: Self-Distillation, Multi-Teacher Agreement, EMA Teacher, Contrastive Learning, Feature Matching
代码/权重: 未提及

📄 Abstract 中文翻译

自蒸馏（SD）为适配大语言模型（LLM）提供了一条有前景的路径，无需依赖更强的外部教师。然而，自回归 LLM 中的 SD 仍具挑战性，因为自生成的轨迹是自由形式的，正确性依赖于任务，合理的推理仍可能提供不稳定或不可靠的监督。现有方法主要检验孤立的设计选择，使其有效性、角色和交互不明确。本文提出 UniSD，一个系统研究自蒸馏的统一框架。UniSD 整合了解决监督可靠性、表示对齐和训练稳定性的互补机制，包括多教师共识、EMA 教师稳定化、token 级对比学习、特征匹配和散度裁剪。跨 6 个基准测试和 3 个模型家族的 6 个模型，UniSD 揭示了自蒸馏何时优于静态模仿、哪些组件驱动增益，以及这些组件如何跨任务交互。在这些洞见指导下，我们构建 UniSDfull，一个整合互补组件的流程，实现最强整体性能，比基座模型提升 +5.4 分，比最强基线提升 +2.8 分。

KL for a KL: On-Policy Distillation with Control Variate Baseline

将在线策略蒸馏视为策略梯度 RL，零额外开销获取价值函数基线

作者: Minjae Oh et al.
来源: HuggingFace Trending (13 upvotes)
链接: arXiv | PDF
关键贡献: 提出 vOPD，将在线策略蒸馏形式化为策略梯度 RL 并引入控制变量基线。发现 OPD 价值函数具有闭式解（token 级负反向 KL 散度），可直接从已计算的前向传播获取，无需额外 critic 或推理开销。
相关技术: On-Policy Distillation, Policy Gradient, Control Variate, Variance Reduction, KL Divergence
代码/权重: 未提及

📄 Abstract 中文翻译

在线策略蒸馏（OPD）已成为大语言模型主导的后训练范式，尤其是推理领域。然而，OPD 在实践中仍不稳定，因为其单样本蒙特卡洛估计器的梯度方差高，稳定训练的配方尚不成熟。我们提出 vOPD（带控制变量基线的在线策略蒸馏），将 OPD 形式化为策略梯度 RL 并通过引入控制变量基线——规范上是价值函数——从 RL 文献中稳定化它。我们表明 OPD 价值函数具有闭式解，即学生和教师之间每个 token 的负反向 KL 散度，可直接从已计算的前向传播获取，无需额外 critic 或推理。现有稳定化方法要么在整个词汇表上计算完整的 token 级反向 KL，增加显著开销，要么将其限制在 top-k 支持上，有偏目标。vOPD 相反保留了轻量单样本估计器，将价值函数作为分离基线减去，保持梯度无偏同时减少方差。此外，我们表明基线的 top-k 近似进一步降低成本而不损害性能。在数学和科学推理基准测试中，vOPD 持续优于普通 OPD 并匹配最昂贵的全词汇表基线，通过有原则的 RL 方差减少提供在线策略蒸馏的高效稳定化。

MatryoshkaLoRA: Learning Accurate Hierarchical Low-Rank Representations for LLM Fine-Tuning

俄罗斯套娃式 LoRA 训练框架，支持动态秩选择且精度损失最小

作者: Ionut-Vlad Modoranu, Mher Safaryan, Dan Alistarh
来源: HuggingFace Trending (15 upvotes)
链接: arXiv | PDF
关键贡献: 提出 MatryoshkaLoRA，在 LoRA 适配器间插入精心设计的对角矩阵 P 缩放子秩，确保所有子秩有效嵌入梯度信息。支持动态秩选择且精度损失最小，提出 AURAC 指标一致评估分层低秩适配器性能。
相关技术: Low-Rank Adaptation, Parameter-Efficient Fine-Tuning, Matryoshka Representation, Dynamic Rank Selection, Continual Learning
代码/权重: 已开源 ✅

📄 Abstract 中文翻译

随着深度学习模型规模达到数十亿参数，微调的计算成本仍是部署的重要障碍。虽然低秩适配（LoRA）已成为参数高效微调的标准，但需要设定预定义的静态秩 r，需要详尽的网格搜索来平衡效率和性能。现有的秩自适应解决方案如 DyLoRA 通过在训练期间从预定义分布采样秩来缓解这一问题。然而，它们往往在较高秩产生次优结果，因为缺乏跨完整秩层次的一致梯度信号，使这些方法数据效率低下。本文提出 MatryoshkaLoRA，一个受俄罗斯套娃启发的 LoRA 通用训练框架，通过在现有 LoRA 适配器间插入固定、精心设计的对角矩阵 P 来相应缩放其子秩，学习准确的分层低秩表示。通过引入这一简单修改，我们的通用框架仅通过更改 P 即可恢复 LoRA 和 DyLoRA，并确保所有子秩有效嵌入可用梯度信息。我们的 MatryoshkaLoRA 支持动态秩选择且精度损失最小。我们进一步提出秩准确率曲线下面积（AURAC），一个一致评估分层低秩适配器性能的指标。我们的结果表明 MatryoshkaLoRA 比先前的秩自适应方法学习更准确的分层低秩表示，并在评估数据集上跨秩实现优异的准确率-性能权衡。代码可在 https://github.com/IST-DASLab/MatryoshkaLoRA 获取。

Anisotropic Modality Align

揭示模态间隙的各向异性残差结构，提出各向异性几何校正框架

作者: Xiaomin Yu et al.
来源: HuggingFace Trending (22 upvotes)
链接: arXiv | PDF
关键贡献: 发现模态表示已共享兼容的主导语义几何，阻碍模态可互换性的核心障碍是沿少数主导方向集中的各向异性残差结构。提出各向异性模态间隙对齐原则和 AnisoAlign 框架，利用目标模态的内部几何先验进行有界校正。
相关技术: Modality Gap, Multimodal LLM, Representation Alignment, Unpaired Training, Geometric Correction
代码/权重: 未提及

📄 Abstract 中文翻译

训练多模态大语言模型长期以来受限于高质量配对多模态数据的稀缺。近期研究表明，预训练多模态对比模型的共享表示空间可作为桥梁，使模型能够使用单模态数据执行多模态训练。然而，这一范式的关键前提仍未被充分理解：来自不同模态的表示能否可靠互换？核心障碍在于共享空间中持续的模态间隙。这项工作重新审视模态间隙的几何本质。我们发现模态表示已共享兼容的主导语义几何。真正阻碍模态可互换性的不是简单的全局偏移，而是沿少数主导方向集中的各向异性残差结构。基于这一发现，我们进一步提出各向异性模态间隙对齐原则：有效的模态对齐应与目标模态分布对齐，同时保留源模态的语义结构。在此原则指导下，我们提出各向异性几何校正框架 AnisoAlign，用于非配对模态对齐。该框架利用目标模态的内部几何先验，对源模态表示执行有界校正，从而在目标模态中构建替代表示。实验确认其在几何诊断和纯文本 MLLM 训练中的益处。

🤖 AI Agents

InterLV-Search: Benchmarking Interleaved Multimodal Agentic Search

交错多模态智能体搜索基准，最佳模型准确率仍低于 50%

作者: Bohan Hou et al.
来源: HuggingFace Trending (5 upvotes)
链接: arXiv | PDF
关键贡献: 提出 InterLV-Search 基准，评估文本和视觉证据被反复用于条件化后续搜索的交错多模态智能体搜索。包含 2,061 个三级示例和多分支样本，揭示当前系统在视觉证据寻求、搜索控制和多模态证据整合方面的挑战。
相关技术: Interleaved Multimodal Search, Agentic Search, Visual Evidence, Multimodal Agent, Benchmark
代码/权重: 未提及

📄 Abstract 中文翻译

现有多模态智能体搜索基准评估多模态搜索和视觉浏览，但视觉证据要么局限于输入，要么被视为答案端点而非交错搜索轨迹的一部分。我们引入 InterLV-Search，一个用于交错语言-视觉智能体搜索的基准，其中文本和视觉证据被反复用于条件化后续搜索。它包含跨三个级别的 2,061 个示例：主动视觉证据寻求、受控离线交错多模态搜索和开放网络交错多模态搜索。除现有基准外，它还包括在证据搜索期间涉及多实体比较多模态多分支样本。我们使用自动化流程构建第 1 级和第 2 级，使用机器主导、人工监督的开放网络流程构建第 3 级。我们进一步提供 InterLV-Agent 用于标准化工具使用、轨迹记录和评估。在专有和开源多模态智能体上的实验表明，当前系统离解决交错多模态搜索还很远，最佳模型整体准确率低于 50%，突显视觉证据寻求、搜索控制和多模态证据整合方面的挑战。

A^2RD: Agentic Autoregressive Diffusion for Long Video Consistency

智能体自回归扩散架构，长视频一致性提升 30%，叙事连贯性提升 20%

作者: Do Xuan Long et al.
来源: HuggingFace Trending (12 upvotes)
链接: arXiv | PDF
关键贡献: 提出 A²RD 智能体自回归扩散架构，通过检索-合成-细化-更新循环逐段自改进长视频。引入多模态视频记忆、自适应片段生成和分层测试时自改进，在 1-10 分钟视频上一致性优于 SOTA 达 30%，叙事连贯性提升 20%。
相关技术: Long Video Synthesis, Autoregressive Diffusion, Video Consistency, Test-Time Self-Improvement, Multimodal Memory
代码/权重: 未提及

📄 Abstract 中文翻译

合成一致连贯的长视频仍是一个基本挑战。现有方法在长时域上存在语义漂移和叙事崩溃。我们提出 A²RD，一个将创意合成与一致性执行解耦的智能体自回归扩散架构。A²RD 将长视频合成形式化为闭环过程，通过检索-合成-细化-更新循环逐段合成和自改进视频片段。它包含三个核心组件：(i) 跨模态跟踪视频进度的多模态视频记忆；(ii) 在生成模式间切换以实现自然进展和视觉一致性的自适应片段生成；(iii) 在帧和视频级别自改进每个片段以防止错误传播的分层测试时自改进。我们进一步引入 LVBench-C，一个具有非线性实体和环境转换的挑战性基准来压力测试长时域一致性。在跨一到十分钟视频的公开和 LVBench-C 基准上，A²RD 在一致性上优于最先进基线达 30%，叙事连贯性提升 20%。人工评估证实了这些增益，同时突显了动作和转换平滑度的显著改善。

AEM: Adaptive Entropy Modulation for Multi-Turn Agentic Reinforcement Learning

无需监督的信用分配方法，自适应熵调制提升智能体 RL 探索-利用权衡

作者: Haotian Zhao et al.
来源: HuggingFace Trending (16 upvotes)
链接: arXiv | PDF
关键贡献: 提出 AEM 无监督信用分配方法，将熵动态从 token 级提升到响应级，自适应调制 RL 训练期间的探索-利用权衡。利用采样响应优势与其相对惊讶度之间的交互推导响应级不确定性代理，在 SWE-bench-Verified 上集成到 SOTA 框架带来 +1.4% 增益。
相关技术: Agentic Reinforcement Learning, Credit Assignment, Entropy Modulation, Multi-Turn Tasks, Exploration-Exploitation
代码/权重: 未提及

📄 Abstract 中文翻译

强化学习（RL）已大幅提升大语言模型（LLM）智能体与环境交互和解决多轮任务的能力。然而，有效的智能体 RL 仍具挑战性：稀疏的仅结果奖励为长交互轨迹中单个步骤分配信用提供的指导有限。现有方法通常引入密集的中间监督，如过程奖励模型或辅助自监督信号，这增加了监督和调参复杂性，并可能限制跨任务和领域的泛化。我们提出 AEM，一种无监督的信用分配方法，在 RL 训练期间自适应调制熵动态以改善探索-利用权衡。由于在智能体 RL 中环境通常受完整响应而非单个 token 影响，我们的分析将熵动态从 token 级提升到响应级，使不确定性与 LLM 智能体的有效动作粒度对齐，减少对 token 级采样噪声的敏感性。我们进一步表明自然梯度更新下的熵漂移由采样响应优势与其相对惊讶度之间的交互支配。受此结果启发，AEM 推导出一个实用的响应级不确定性代理并用它重新缩放优势，利用正负样本间演变的平衡自然地从探索过渡到利用。在 ALFWorld、WebShop 和 SWE-bench-Verified 上使用 1.5B 到 32B 模型的广泛实验表明，AEM 持续改善强 RL 基线，包括集成到最先进软件工程 RL 训练框架时 +1.4% 的增益。

📌 其他值得关注

STARFlow2: Bridging Language Models and Normalizing Flows for Unified Multimodal Generation

自回归归一化流与 LLM 架构一致，实现真正统一的多模态生成

作者: Ying Shen et al.
来源: HuggingFace Trending (9 upvotes)
链接: arXiv | PDF
关键贡献: 观察到自回归归一化流与自回归 Transformer 共享因果掩码、KV 缓存机制和从左到右结构，是最自然的统一多模态生成范式。提出 STARFlow2，基于 Pretzel 架构通过残差跳跃连接垂直交织预训练 VLM 流和 TarFlow 流。
相关技术: Normalizing Flows, Multimodal Generation, Autoregressive Models, KV-Cache, Unified Architecture
代码/权重: 未提及

📄 Abstract 中文翻译

深度生成模型在文本和视觉领域快速进展，推动了能够理解、推理和生成交错文本-图像序列的统一多模态系统的发展。大多数现有方法将自回归语言建模与基于扩散的图像生成器结合，继承了因果文本生成和迭代视觉去噪之间的结构性不匹配。我们观察到自回归归一化流是自回归 Transformer——与 LLM 共享相同的因果掩码、KV 缓存机制和从左到右结构——使其成为真正统一多模态生成的最自然范式。我们提出 STARFlow2，建立在 Pretzel 架构之上，通过残差跳跃连接垂直交织预训练 VLM 流和 TarFlow 流，两者都在相同因果掩码下运行。结合深-浅流设计和统一 FAE 潜在空间，STARFlow2 实现缓存友好的交错生成，文本和视觉输出都直接进入 KV 缓存而无需重新编码。实验在图像生成和多模态理解基准上展示强性能，验证自回归流作为统一多模态建模可行基础。

Generated on 2026-05-12T00:00:00Z | Sources: arXiv, HuggingFace, Papers With Code