AI Paper Daily | 2026-03-25

今日概览

共收录 4 篇论文 | Audio LLM: 2 篇 | LLM Training: 1 篇 | AI Agents: 1 篇来源：HuggingFace Trending(4)

重点推荐 ⭐

Speed by Simplicity: A Single-Stream Architecture for Fast Audio-Video Generative Foundation Model

单流 Transformer 架构实现高效音视频同步生成，5 秒 256p 视频仅需 2 秒推理

作者: SII-GAIR, Sand. ai, Ethan Chern et al. (45 authors)
来源: HuggingFace Trending (#1 Paper of the day, 391 upvotes)
链接: arXiv | Project | GitHub
关键贡献:
- 提出 daVinci-MagiHuman，开源音视频生成基础模型，采用单流 Transformer 架构统一处理文本、视频、音频 token
- 避免多流或 cross-attention 架构的复杂性，仅需 self-attention 即可实现高质量音视频同步
- 结合模型蒸馏、latent-space 超分和 Turbo VAE 解码器，单 H100 上 2 秒生成 5 秒 256p 视频
- 支持中 (普通话/粤语)、英、日、韩、德、法六国语言口语生成
相关技术: Audio-Video Generation, Single-Stream Transformer, Model Distillation, Turbo VAE
代码/权重: 已开源 ✅ (base model + distilled model + super-resolution model + inference codebase)

📄 Abstract 中文翻译

我们提出 daVinci-MagiHuman，一个面向人类中心生成的开源音视频生成基础模型。daVinci-MagiHuman 使用单流 Transformer 联合生成同步的视频和音频，该 Transformer 仅通过 self-attention 在统一的 token 序列中处理文本、视频和音频。这种单流设计避免了多流或 cross-attention 架构的复杂性，同时易于使用标准训练和推理基础设施进行优化。该模型在人类中心场景中表现尤为出色，能够生成富有表现力的面部表演、自然的语音 - 表情协调、逼真的身体动作以及精确的音视频同步。它支持跨中文（普通话和粤语）、英语、日语、韩语、德语和法语的多语言口语生成。为了实现高效推理，我们将单流骨干网络与模型蒸馏、潜在空间超分辨率和 Turbo VAE 解码器相结合，能够在单个 H100 GPU 上用 2 秒时间生成 5 秒 256p 视频。在自动评估中，daVinci-MagiHuman 在领先开源模型中实现了最高的视觉质量和文本对齐度，同时实现了最低的词错误率（14.60%）以获得语音清晰度。在成对人类评估中，它在 2000 次比较中相比 Ovi 1.1 取得了 80.0% 的胜率，相比 LTX 2.3 取得了 60.9% 的胜率。我们开源了完整的模型栈，包括基础模型、蒸馏模型、超分辨率模型和推理代码库。

AnimalCLAP: Taxonomy-Aware Language-Audio Pretraining for Species Recognition and Trait Inference

引入分类学信息的语言 - 音频预训练框架，通过层级生物信息提升物种识别和生态特征推断

作者: Risa Shinoda, Kaede Shiohara, Nakamasa Inoue et al.
来源: HuggingFace Trending (3 upvotes)
链接: arXiv | Project
关键贡献:
- 提出 AnimalCLAP，一个分类学感知的语言 - 音频框架，包含新数据集和模型
- 构建 4,225 小时录音数据集，覆盖 6,823 个物种，标注 22 种生态特征
- 利用分类结构对齐音频和文本表示，提升未见物种的识别能力
- 可直接从物种叫声推断生态和生物属性，性能优于 CLAP
相关技术: Language-Audio Pretraining, Taxonomy-Aware Learning, Species Recognition
代码/权重: 已开源 ✅

📄 Abstract 中文翻译

动物叫声为野生动物评估提供了关键洞察，特别是在森林等复杂环境中，有助于物种识别和生态监测。深度学习的最新进展实现了从叫声自动分类物种。然而，分类训练期间未见过的物种仍然具有挑战性。为了解决这一限制，我们引入 AnimalCLAP，一个分类学感知的语言 - 音频框架，包含一个整合层级生物信息的新数据集和模型。具体而言，我们的发声数据集由 4,225 小时的录音组成，覆盖 6,823 个物种，标注有 22 种生态特征。AnimalCLAP 模型在该数据集上训练，使用分类结构对齐音频和文本表示，提升未见物种的识别。我们证明，所提出的模型能够有效地直接从物种叫声推断生态和生物属性，相比 CLAP 实现了更优的性能。我们的数据集、代码和模型将在 https://dahlian00.github.io/AnimalCLAP_Page/ 公开提供。

🧠 LLM Training

PivotRL: High Accuracy Agentic Post-Training at Low Compute Cost

结合 SFT 效率与 RL 泛化能力的新型后训练框架，4 倍减少 rollout 轮次实现同等精度

作者: NVIDIA, Junkeun Yi, Damon Mosk-Aloyama, Baihe Huang et al.
来源: HuggingFace Trending (11 upvotes)
链接: arXiv
关键贡献:
- 提出 PivotRL 框架，在现有 SFT 轨迹上操作，结合 SFT 的计算效率与端到端 RL 的 OOD 泛化能力
- 执行局部 on-policy rollout 并筛选 pivot：信息丰富的中间轮次，采样动作在结果上表现出高方差
- 使用功能等价动作的奖励而非严格要求与 SFT 数据演示的字符串匹配
- 在四个 agent 领域上相比标准 SFT 实现 +4.17% 域内精度提升，+10.04% 非 agent 任务 OOD 精度提升
- 在 agent 编码任务上，相比端到端 RL 减少 4 倍 rollout 轮次实现同等精度
相关技术: Reinforcement Learning, Post-Training, Agentic Tasks, SFT
代码/权重: 已应用于 NVIDIA Nemotron-3-Super-120B-A12B

📄 Abstract 中文翻译

长程 agent 任务的后训练存在计算效率与泛化能力之间的张力。虽然监督微调 (SFT) 计算效率高，但经常遭受域外 (OOD) 性能退化。相反，端到端强化学习 (E2E RL) 保留了 OOD 能力，但由于多轮 on-policy rollout 而产生高计算成本。我们引入 PivotRL，一个在现有 SFT 轨迹上操作的新颖框架，以结合 SFT 的计算效率与 E2E RL 的 OOD 精度。PivotRL 依赖两个关键机制：首先，它执行局部的 on-policy rollout 并筛选 pivot：信息丰富的中间轮次，其中采样动作在结果上表现出高方差；其次，它利用功能等价动作的奖励，而非严格要求与 SFT 数据演示的字符串匹配。我们从理论上证明，这些机制激励具有高自然梯度范数的强学习信号，同时最大程度地保留与训练任务无关动作的策略概率排序。与在相同数据上的标准 SFT 相比，我们证明 PivotRL 在四个 agent 领域上平均实现 +4.17% 更高的域内精度，在非 agent 任务中实现 +10.04% 更高的 OOD 精度。值得注意的是，在 agent 编码任务上，PivotRL 以 4 倍更少的 rollout 轮次实现与 E2E RL 相当的精度。PivotRL 已被 NVIDIA 的 Nemotron-3-Super-120B-A12B 采用，作为生产级 agent 后训练的主力。

🤖 AI Agents

OpenResearcher: A Fully Open Pipeline for Long-Horizon Deep Research Trajectory Synthesis

完全开源的深度研究 Agent 训练管道，离线合成 97K 长程轨迹，BrowseComp-Plus 达 54.8% 精度

作者: TIGER-Lab, Zhuofeng Li, Dongfu Jiang, Wenhu Chen et al.
来源: HuggingFace Trending (50 upvotes)
链接: arXiv | GitHub | Demo
关键贡献:
- 提出 OpenResearcher，可复现的离线深度研究轨迹合成管道，不依赖专有 Web API
- 解耦一次性语料库 bootstrapping 与多轮轨迹合成，在 15M 文档语料上完全离线执行搜索 - 浏览循环
- 使用三个显式浏览原语：search、open、find
- 使用 GPT-OSS-120B 作为教师模型，合成超过 97K 轨迹，包括 100+ 工具调用的长程尾部
- 在 30B-A3B 骨干上进行 SFT，在 BrowseComp-Plus 上达到 54.8% 精度（+34.0 点提升），在 BrowseComp、GAIA、xbench-DeepSearch 上保持竞争力
- 已被 NVIDIA Nemotron 系列模型采用
相关技术: Deep Research Agents, Trajectory Synthesis, Offline Browser Environment
代码/权重: 已开源 ✅ (pipeline + trajectories + checkpoints + offline environment)

📄 Abstract 中文翻译

训练深度研究 agent 需要交织搜索、证据聚合和多步推理的长程轨迹。然而，现有的数据收集管道通常依赖专有 Web API，使得大规模轨迹合成成本高昂、不稳定且难以复现。我们提出 OpenResearcher，一个可复现的管道，将一次性语料库 bootstrapping 与多轮轨迹合成解耦，并在 15M 文档语料上使用三个显式浏览原语（搜索、打开、查找）完全离线执行搜索 - 浏览循环。使用 GPT-OSS-120B 作为教师模型，我们合成了超过 97K 轨迹，包括具有 100+ 工具调用的大量长程尾部。在这些轨迹上对 30B-A3B 骨干进行监督微调，在 BrowseComp-Plus 上实现 54.8% 精度（+34.0 点提升超过基础模型），同时在 BrowseComp、GAIA 和 xbench-DeepSearch 上保持竞争力。由于环境是离线且完全可检测的，它还能实现受控分析，我们的研究揭示了深度研究管道设计的实用洞察，包括数据过滤策略、agent 配置选择以及检索成功如何与最终答案精度相关联。我们在 https://github.com/TIGER-AI-Lab/OpenResearcher 发布管道、合成轨迹、模型检查点和离线搜索环境。

今日 HuggingFace 热门论文主要集中在音视频生成、音频理解和 Agent 训练方向。daVinci-MagiHuman 作为当日 #1 论文，展示了单流架构在音视频同步生成上的突破性进展；AnimalCLAP 则探索了生物分类学知识在音频预训练中的应用；PivotRL 和 OpenResearcher 分别在 RL 后训练和深度研究 agent 合成上提供了高效解决方案。

Generated on 2026-03-25 00:00 UTC | Sources: HuggingFace Papers

Cover image source: Pixiv

今日概览

重点推荐 ⭐

Speed by Simplicity: A Single-Stream Architecture for Fast Audio-Video Generative Foundation Model

AnimalCLAP: Taxonomy-Aware Language-Audio Pretraining for Species Recognition and Trait Inference

🧠 LLM Training

PivotRL: High Accuracy Agentic Post-Training at Low Compute Cost

🤖 AI Agents

OpenResearcher: A Fully Open Pipeline for Long-Horizon Deep Research Trajectory Synthesis

📈 Trending 补充