AI Paper Daily | 2026-04-19

今日概览

共收录 30 篇论文 | Audio LLM: 4篇 | LLM Training: 15篇 | AI Agents: 9篇 | 其他值得关注: 2篇来源: HuggingFace(30)

重点推荐 ⭐

KnowRL: Boosting LLM Reasoning via Reinforcement Learning with Minimal-Sufficient Knowledge Guidance

用最少充分知识引导强化学习，1.5B 模型推理能力飙升 9.63 分

作者: Linhao Yu et al.
来源: HuggingFace Trending (96 upvotes)
链接: arXiv | PDF
关键贡献: 将提示设计视为最小充分引导问题，通过约束子集搜索构建紧凑知识点子集；识别剪枝交互悖论并优化鲁棒子集筛选；1.5B 模型推理平均 74.16，同尺度 SOTA
相关技术: constrained subset search, hint-based RL, reward sparsity, atomic knowledge points
代码/权重: 已开源 ✅

📄 Abstract 中文翻译

RLVR 提升了大语言模型的推理能力，但其效果常受限于困难问题上的严重奖励稀疏性。近期基于提示的 RL 方法通过注入部分解或抽象模板来缓解稀疏性，但它们通常通过增加更多 token 来扩展引导，这引入了冗余、不一致和额外训练开销。我们提出 KnowRL（知识引导的强化学习），一个将提示设计视为最小充分引导问题的 RL 训练框架。在 RL 训练期间，KnowRL 将引导分解为原子级知识点（KPs），并使用约束子集搜索（CSS）为训练构建紧凑的、感知交互的子集。我们进一步识别了剪枝交互悖论——移除一个 KP 可能有帮助，但移除多个这样的 KP 反而有害——并在此依赖结构下显式优化鲁棒的子集筛选。我们从 OpenMath-Nemotron-1.5B 训练了 KnowRL-Nemotron-1.5B。在 1.5B 尺度的八个推理基准上持续超越强基线。推理时不使用 KP 提示达 70.08 平均准确率（+9.63），使用选定的 KPs 后达 74.16，该尺度 SOTA。

Seedance 2.0: Advancing Video Generation for World Complexity

字节跳动多模态音视频联合生成模型，四模态输入直接输出音视频

作者: Team Seedance et al.
来源: HuggingFace Trending (136 upvotes)
链接: arXiv | PDF
关键贡献: 统一高效大规模架构实现多模态音视频联合生成，支持文本/图像/音频/视频四模态输入；直接生成 4-15 秒音视频内容，原生 480p/720p；多模态引用支持最多 3 视频+9 图像+3 音频
相关技术: multi-modal audio-video generation, joint generation architecture, native resolution output
代码/权重: 未提及

📄 Abstract 中文翻译

Seedance 2.0 是一个新的原生多模态音视频生成模型，于 2026 年 2 月初在中国正式发布。与前身 Seedance 1.0 和 1.5 Pro 相比，Seedance 2.0 采用统一、高效的大规模架构进行多模态音视频联合生成。它通过集成业界最全面的多模态内容引用和编辑能力套件之一，支持四种输入模态：文本、图像、音频和视频。在视频和音频生成的所有关键子维度上实现全面实质提升。在专家评估和公开用户测试中展现领域领先水平性能。支持直接生成 4 到 15 秒音视频内容，原生输出 480p 和 720p。多模态输入支持最多 3 个视频片段、9 张图像和 3 个音频片段。同时提供 Fast 加速版本。

多模态世界模型，从文本/图像/视频重建和生成可导航 3D 场景

作者: Team HY-World et al.
来源: HuggingFace Trending (80 upvotes)
链接: arXiv | PDF
关键贡献: 四阶段方法从文本/单视图生成可导航 3DGS 场景；引入 WorldLens 渲染平台支持自动 IBL 光照和碰撞检测；多个基准上开源 SOTA，与闭源 Marble 相当
相关技术: 3D Gaussian Splatting, panorama generation, stereo view generation, feed-forward 3D prediction
代码/权重: 已开源 ✅

📄 Abstract 中文翻译

我们介绍 HY-World 2.0，推进前序项目的多模态世界模型框架。支持文本提示、单视图/多视图图像和视频输入，输出 3D 世界表示。通过四阶段方法实现世界生成：a) HY-Pano 2.0 全景生成，b) WorldNav 轨迹规划，c) WorldStereo 2.0 世界扩展，d) WorldMirror 2.0 世界组合。引入关键创新增强全景保真度、实现 3D 场景理解和规划，通过一致性记忆升级 WorldStereo。升级 WorldMirror 前馈模型架构和学习策略，支持从多视图图像或视频重建。引入 WorldLens 高性能 3DGS 渲染平台，具备灵活引擎无关架构、自动 IBL 光照、高效碰撞检测和训练-渲染协同设计，支持角色交互式探索。多个基准上达开源 SOTA。

Lightning OPD: Efficient Post-Training for Large Reasoning Models with Offline On-Policy Distillation

离线策略蒸馏 30 GPU 小时达 AIME 69.9%，4x 加速

作者: Yecheng Wu et al.
来源: HuggingFace Trending (10 upvotes)
链接: arXiv | PDF
关键贡献: 提出 teacher consistency 条件，证明违反它导致不可约梯度偏差；离线策略蒸馏无需实时 teacher 服务器；30 GPU 小时 AIME 2024 达 69.9%，比标准 OPD 快 4x
相关技术: offline on-policy distillation, teacher consistency, gradient bias, SFT rollouts
代码/权重: 未提及

📄 Abstract 中文翻译

策略蒸馏（OPD）已成为大语言模型高效后训练范式，但标准 OPD 需要实时 teacher 推理服务器，导致大量基础设施开销。我们研究策略蒸馏是否可离线进行。自然的做法是在 SFT 滚动上一次性预计算 teacher 对数概率并复用，但实践中离线变体无法可靠匹配标准 OPD 性能。我们识别了此前被忽略的关键条件 teacher consistency：要求 SFT 和 OPD 使用相同 teacher。违反它引入不可约梯度偏差，导致离线和在线 OPD 都收敛到次优不动点。基于此提出 Lightning OPD，通过在 SFT 滚动上预计算 teacher 对数概率强制 teacher consistency，完全消除实时 teacher 服务器需求。在 teacher consistency 下与标准 OPD 共享相同最优点，梯度偏差有界且具隐式正则化效果。从 SFT 初始化的 Qwen3-8B-Base 出发，Lightning OPD 在 AIME 2024 达 69.9%。

🔊 Audio LLM

MERRIN: A Benchmark for Multimodal Evidence Retrieval and Reasoning in Noisy Web Environments

噪声网络环境多模态证据检索与推理基准，最佳 agent 仅 40.1% 准确率

作者: Han Wang et al.
来源: HuggingFace Trending (6 upvotes)
链接: arXiv | PDF
关键贡献: 首个评估搜索增强 agent 在噪声多模态网络环境中的人工标注基准；发现最强 agent 因过度探索表现不佳且过度依赖文本模态；全部 agent 平均 22.3%
相关技术: multimodal evidence retrieval, multi-hop reasoning, noisy web sources, agentic search
代码/权重: 未提及

📄 Abstract 中文翻译

受搜索查询欠指定多跳特性和现实网络结果多模态异构冲突性质驱动，我们引入 MERRIN，评估搜索增强 agent 的人工标注基准。衡量 AI agent 识别相关模态、检索多模态证据和在噪声网络源上多跳推理的能力。三个不同点：（1）无明确模态提示的自然语言查询，（2）纳入视频和音频等未充分探索模态，（3）检索噪声冲突的多模态证据。评估十个模型驱动的搜索 agent（GPT-5.4-mini、Gemini 3/3.1 Flash/Pro、Qwen3-4B/30B/235B 等），跨三种搜索设置。所有 agent 平均 22.3%，最佳仅 40.1%。更强 agent 因过度探索收益递减：更多步骤和工具但常被冲突内容干扰。相比人类消耗更多资源却准确率更低，主要因低效来源选择和过度依赖文本模态。

统一可控视频转音频框架，解决视觉-文本冲突下的精准控制

作者: Jianxuan Yang et al.
来源: HuggingFace Trending (1 upvotes)
链接: arXiv | PDF
关键贡献: 联合视觉编码整合 CLIP 与时空音视频编码器；时间-音色解耦抑制冗余时间线索保留判别性音色；VGGSound-TVC 基准评估视觉-文本冲突下的文本可控性；跨多个 V2A 任务 SOTA
相关技术: video-to-audio generation, temporal-timbre decoupling, cross-modal conflict, modality dropout
代码/权重: 已开源 ✅

📄 Abstract 中文翻译

视频转音频生成的最新进展使从视觉内容合成高质量音频成为可能，但实现鲁棒细粒度可控性仍有挑战。现有方法在视觉-文本冲突下文本可控性弱，参考音频中时间与音色信息纠缠导致风格控制不精确，缺乏标准化基准。我们提出 ControlFoley，统一多模态 V2A 框架，实现对视频、文本和参考音频的精准控制。引入联合视觉编码范式整合 CLIP 与时空音视频编码器改善对齐和文本可控性。提出时间-音色解耦抑制冗余时间线索保留判别性音色特征。设计具有统一多模态表示对齐（REPA）和随机模态丢弃的模态鲁棒训练方案。提出 VGGSound-TVC 评估视觉-文本冲突下文本可控性的基准。在文本引导、文本控制和音频控制生成等多个 V2A 任务上达 SOTA。

SpotSound: Enhancing Large Audio-Language Models with Fine-Grained Temporal Grounding

音频语言模型时间定位增强，抑制幻觉时间戳 + 严格基准

作者: Luoyi Sun et al.
来源: HuggingFace Trending (1 upvotes)
链接: arXiv | PDF
关键贡献: 新训练目标抑制输入中不存在事件的幻觉时间戳；SpotSound-Bench 基准目标事件占比不到 10%，模拟"大海捞针"；时间定位 SOTA 同时保持通用音频语言任务性能
相关技术: temporal grounding, hallucinated timestamp suppression, needle-in-a-haystack, audio event grounding
代码/权重: 已开源 ✅

📄 Abstract 中文翻译

大型音频语言模型在整体音频理解上展现显著能力，但时间定位（精确定位事件在长音频中出现时刻）仍不可靠。这源于两个因素：训练数据以缺精确时间戳的片段级监督为主，基准未模拟短事件被密集背景遮蔽的真实场景。我们介绍 SpotSound，专为音频事件定位设计的音频语言模型。包含新训练目标，专门抑制输入中不存在事件的幻觉时间戳。提出 SpotSound-Bench，目标事件占每个片段不到约 10% 的"大海捞针"时间定位基准。实验表明 SpotSound 在时间定位基准上达 SOTA 同时保持通用音频语言任务鲁棒性能。

🧠 LLM Training

TREX: Automating LLM Fine-tuning via Agent-Driven Tree-based Exploration

多 agent 自动化 LLM 微调全生命周期，搜索树建模实验过程

作者: Zerun Ma et al.
来源: HuggingFace Trending (12 upvotes)
链接: arXiv | PDF
关键贡献: Researcher+Executor 双模块自动化从需求分析到训练评估全流程；搜索树建模多轮实验支持路径规划和历史复用；构建 FT-Bench 含 10 个真实场景任务
相关技术: tree-based exploration, multi-agent orchestration, automated fine-tuning, data recipe preparation
代码/权重: 未提及

📄 Abstract 中文翻译

虽然 LLMs 赋予 AI 研究 agent 执行孤立科学任务的能力，但自动化复杂现实工作流（如 LLM 训练）仍是重大挑战。我们介绍 TREX，自动化整个 LLM 训练生命周期的多 agent 系统。通过 Researcher 和 Executor 协作，无缝执行需求分析、开放域文献和数据研究、训练策略制定、数据配方准备及模型训练评估。多轮实验建模为搜索树，支持高效路径规划、历史复用和迭代试验中蒸馏高层洞察。构建 FT-Bench 含 10 个真实场景任务。实验表明 TREX 持续优化模型在目标任务上的性能。

DR^{3}-Eval: Towards Realistic and Reproducible Deep Research Evaluation

深度研究 agent 评估基准，模拟开放网络复杂性同时保证可复现

作者: Qianqian Xie et al.
来源: HuggingFace Trending (26 upvotes)
链接: arXiv | PDF
关键贡献: 每个任务配静态研究沙盒语料库模拟开放网络；多维度评估框架（信息召回、事实准确性、引用覆盖、指令遵循、深度质量）；揭示检索鲁棒性和幻觉控制是关键失败模式
相关技术: deep research evaluation, multimodal report generation, static research sandbox, hallucination control
代码/权重: 已开源 ✅

📄 Abstract 中文翻译

深度研究 Agent 旨在解决涉及规划、检索、多模态理解和报告生成的复杂长程研究任务，但评估仍具挑战。我们提出 DR³-Eval，评估深度研究 agent 多模态多文件报告生成的现实可复现基准。由真实用户材料构建，每个任务配静态研究沙盒语料库，模拟开放网络复杂性同时保持完全可验证，含支持文档、干扰项和噪声。引入多维度评估框架衡量信息召回、事实准确性、引用覆盖、指令遵循和深度质量，验证与人类判断一致。基于多个 SOTA 语言模型的 DR³-Agent 实验表明基准极具挑战性，揭示检索鲁棒性和幻觉控制的关键失败模式。

RAD-2: Scaling Reinforcement Learning in a Generator-Discriminator Framework

生成器-判别器框架自动驾驶运动规划，碰撞率降低 56%

作者: Hao Gao et al.
来源: HuggingFace Trending (25 upvotes)
链接: arXiv | PDF
关键贡献: 扩散生成器 + RL 判别器解耦设计避免稀疏奖励直接施于高维空间；时间一致性组相对策略优化缓解信用分配；BEV-Warp 高吞吐仿真实现高效闭环训练；碰撞率降 56%
相关技术: diffusion-based planning, generator-discriminator framework, closed-loop planning, BEV simulation
代码/权重: 未提及

📄 Abstract 中文翻译

高级自动驾驶需建模多模态未来不确定性同时闭环交互鲁棒的运动规划器。基于扩散的规划器善于建模复杂轨迹分布，但常遭随机不稳定性和纯模仿学习缺乏纠正性负反馈。我们提出 RAD-2，闭环规划的统一生成器-判别器框架。扩散生成器产生多样轨迹候选，RL 优化判别器按长期驾驶质量重排序。解耦设计避免稀疏标量奖励直接施于高维轨迹空间，提高优化稳定性。引入时间一致性组相对策略优化利用时间连贯性缓解信用分配。策略生成器优化将闭环反馈转为结构化纵向优化信号。引入 BEV-Warp 通过空间变换在鸟瞰图特征空间直接闭环评估。RAD-2 碰撞率降 56%，实车部署验证改善感知安全性和驾驶平顺性。

TRACER: Trace-Based Adaptive Cost-Efficient Routing for LLM Classification

利用 LLM 生产日志训练轻量替代模型，按需路由降推理成本

作者: Adam Rida
来源: HuggingFace Trending (6 upvotes)
链接: arXiv | PDF
关键贡献: LLM 生产日志免费训练轻量替代模型；奇偶性门控决定替代模型何时接管；生成可解释性工件描述替代模型处理范围和延迟原因
相关技术: surrogate model, parity gate, production trace, cost-efficient routing
代码/权重: 已开源 ✅

📄 Abstract 中文翻译

每次 LLM 分类调用都产生生产日志中的标注输入-输出对，构成免费增长的训练集。轻量替代模型可近零边际推理成本吸收大量流量。开放问题是替代模型何时够可靠、处理什么与延迟什么、边界如何随数据演变。我们引入 TRACER，在 LLM 生产轨迹上训练 ML 替代模型并通过奇偶性门控管理部署：仅当与 LLM 一致性超阈值 α 时激活。生成可解释性工件描述替代模型处理哪些输入区域、哪里平台期和为何延迟。77 类意图基准上 83-100% 替代覆盖率；150 类基准上完全替代 teacher；NLI 任务上门控正确拒绝部署。

Towards Scalable Lightweight GUI Agents via Multi-role Orchestration

LAMO 框架让轻量 3B 模型通过多角色编排实现 GUI 自动化

作者: Ziwei Wang et al.
来源: HuggingFace Trending (0 upvotes)
链接: arXiv | PDF
关键贡献: 多角色编排赋予轻量 MLLM GUI 知识和任务可扩展性；两阶段训练：困惑度加权交叉熵蒸馏 + RL 角色协同探索；LAMO-3B 支持单体和 MAS 编排，可随 planner 进步持续受益
相关技术: multi-role orchestration, perplexity-weighted cross-entropy, lightweight GUI agent, MAS orchestration
代码/权重: 未提及

📄 Abstract 中文翻译

MLLM 驱动的自主 GUI agent 支持终端设备数字自动化。扩展参数和数据带来收益，但先进方法在资源受限设备部署成本仍高。轻量 GUI agent 受限于有限容量和端到端情景学习下差的任务可扩展性，难以适应多 agent 系统，训练多专家代价高。我们提出 LAMO，赋予轻量 MLLM GUI 知识和任务可扩展性，多角色编排扩展 GUI 自动化能力边界。结合角色导向数据合成和两阶段训练：（i）困惑度加权交叉熵优化的 SFT 进行知识蒸馏和视觉感知增强，（ii）RL 进行角色导向协同探索。LAMO-3B 支持单体执行和 MAS 编排，配合高级 planner 可持续受益。

Visual Preference Optimization with Rubric Rewards

基于实例级评分量规的视觉偏好优化，macro 平均 82.69 vs 75.82

作者: Ya-Qi Yu et al.
来源: HuggingFace Trending (1 upvotes)
链接: arXiv | PDF
关键贡献: 为每个图像-指令对创建清单式评分量规进行细粒度偏好优化；量规离线构建策略数据构建时复用；量规过滤 macro 82.69 vs 结果过滤 75.82
相关技术: rubric-based preference optimization, instance-specific criteria, on-policy data, visual reasoning
代码/权重: 未提及

📄 Abstract 中文翻译

DPO 的有效性取决于偏好数据是否反映多模态任务重要质量差异。现有流水线依赖离策略扰动或粗粒度结果信号，不适合细粒度视觉推理。我们提出 rDPO，基于实例特定评分量规的偏好优化框架。为每个图像-指令对创建清单式评分量规，含基本和附加标准对响应评分。指令-量规池离线构建并复用。公开奖励建模基准上量规提示大幅改善 30B-A3B 评判器接近 GPT-5.4。下游基准上量规过滤 macro 82.69，结果过滤从 81.14 降至 75.82。综合基准上 rDPO 61.01 超越风格约束基线 52.36 和基础模型 59.48。

DharmaOCR: Specialized Small Language Models for Structured OCR

专用小模型结构化 OCR，首次 DPO 用于 OCR 抑制退化，超商业基线

作者: Gabriel Pimenta de Freitas Cardoso et al.
来源: HuggingFace Trending (0 upvotes)
链接: arXiv | PDF
关键贡献: 首次 DPO 用于 OCR 以退化生成为拒绝样例惩罚循环行为；SFT+DPO 退化率最高降 87.6%；7B/3B 模型达 0.925/0.911 超所有开源商业基线
相关技术: structured OCR, Direct Preference Optimization, text degeneration, JSON schema enforcement
代码/权重: 未提及

📄 Abstract 中文翻译

介绍 DharmaOCR Full 和 Lite，结构化 OCR 的专用小语言模型对，联合优化转录质量、生成稳定性和推理成本。提出 DharmaOCR-Benchmark 覆盖印刷、手写和法律行政文档，统一评估协议衡量保真度和结构，显式跟踪文本退化。经验性表明退化恶化生产性能：增加响应时间、降低吞吐量、膨胀计算成本。首次将 DPO 用于 OCR，用退化生成作拒绝样例惩罚循环行为。SFT 强制严格 JSON 模式加 DPO 一致降低退化率（相对最高 87.6%）同时保持或提升提取质量。DharmaOCR Full (7B) 和 Lite (3B) 分别达 0.925 和 0.911，退化率仅 0.40% 和 0.20%。AWQ 量化每页成本降 22%。

Reinforcement Learning via Value Gradient Flow

行为正则化 RL 转化为最优传输问题，消除显式策略参数化

作者: Haoran Xu et al.
来源: HuggingFace Trending (5 upvotes)
链接: arXiv | PDF
关键贡献: 行为正则化 RL 转为最优传输问题通过离散梯度流求解；消除显式策略参数化保持表达性和灵活性；支持自适应测试时扩展，离线 RL 和 LLM RL 任务 SOTA
相关技术: value gradient flow, optimal transport, behavior-regularized RL, discrete gradient flow
代码/权重: 已开源 ✅

📄 Abstract 中文翻译

行为正则化 RL 中向参考分布正则化对防止价值过优化至关重要。现有方法依赖难扩展的重参数化策略梯度或过于保守的拒绝采样。我们提出价值梯度流（VGF），可扩展的行为正则化 RL 新范式。VGF 将问题转化为最优传输，将参考分布映射到价值诱导的最优策略分布。通过离散梯度流求解，价值梯度引导从参考分布初始化的粒子。VGF 通过控制传输预算隐式正则化，消除显式策略参数化同时保持表达性和灵活性，支持调整预算实现自适应测试时扩展。离线 RL 基准（D4RL、OGBench）和 LLM RL 任务上 SOTA。

From P(y|x) to P(y): Investigating Reinforcement Learning in Pre-train Space

预训练空间 RL，负样本强化激发反思行为增长 14.89 倍

作者: Yuqiao Tan et al.
来源: HuggingFace Trending (26 upvotes)
链接: arXiv | PDF
关键贡献: PreRL 直接对边缘分布 P(y) 应用奖励驱动在线更新；负样本强化快速剪枝不正确推理空间，过渡和反思思维增 14.89x/6.54x；DSRL 双空间策略先 NSR-PreRL 扩展再标准 RL 精细化
相关技术: pre-train space RL, negative sample reinforcement, marginal distribution optimization, dual space RL
代码/权重: 未提及

📄 Abstract 中文翻译

RLVR 通过优化 P(y|x) 增强 LLM 推理，但受限于基础模型现有输出分布。优化 P(y) 可编码推理能力和保留探索容量，但传统预训练依赖静态语料被动学习。我们引入 PreRL 直接对 P(y) 应用奖励驱动在线更新。理论和经验验证 log P(y) 和 log P(y|x) 强梯度对齐。发现关键机制：PreRL 中负样本强化（NSR）是推理的异常有效驱动。NSR-PreRL 快速剪枝不正确推理空间同时激发内源性反思，过渡和反思思维分别增 14.89x 和 6.54x。提出 DSRL 双空间 RL：先用 NSR-PreRL 扩展推理视野，再转标准 RL 精细优化。DSRL 持续超