今日概览
共收录 4 篇论文 | Audio LLM: 2 篇 | LLM Training: 1 篇 | AI Agents: 1 篇 来源:HuggingFace Trending(4)
重点推荐 ⭐
Speed by Simplicity: A Single-Stream Architecture for Fast Audio-Video Generative Foundation Model
单流 Transformer 架构实现高效音视频同步生成,5 秒 256p 视频仅需 2 秒推理
- 作者: SII-GAIR, Sand. ai, Ethan Chern et al. (45 authors)
- 来源: HuggingFace Trending (#1 Paper of the day, 391 upvotes)
- 链接: arXiv | Project | GitHub
- 关键贡献:
- 提出 daVinci-MagiHuman,开源音视频生成基础模型,采用单流 Transformer 架构统一处理文本、视频、音频 token
- 避免多流或 cross-attention 架构的复杂性,仅需 self-attention 即可实现高质量音视频同步
- 结合模型蒸馏、latent-space 超分和 Turbo VAE 解码器,单 H100 上 2 秒生成 5 秒 256p 视频
- 支持中 (普通话/粤语)、英、日、韩、德、法六国语言口语生成
- 相关技术: Audio-Video Generation, Single-Stream Transformer, Model Distillation, Turbo VAE
- 代码/权重: 已开源 ✅ (base model + distilled model + super-resolution model + inference codebase)
📄 Abstract 中文翻译
我们提出 daVinci-MagiHuman,一个面向人类中心生成的开源音视频生成基础模型。daVinci-MagiHuman 使用单流 Transformer 联合生成同步的视频和音频,该 Transformer 仅通过 self-attention 在统一的 token 序列中处理文本、视频和音频。这种单流设计避免了多流或 cross-attention 架构的复杂性,同时易于使用标准训练和推理基础设施进行优化。该模型在人类中心场景中表现尤为出色,能够生成富有表现力的面部表演、自然的语音 - 表情协调、逼真的身体动作以及精确的音视频同步。它支持跨中文(普通话和粤语)、英语、日语、韩语、德语和法语的多语言口语生成。为了实现高效推理,我们将单流骨干网络与模型蒸馏、潜在空间超分辨率和 Turbo VAE 解码器相结合,能够在单个 H100 GPU 上用 2 秒时间生成 5 秒 256p 视频。在自动评估中,daVinci-MagiHuman 在领先开源模型中实现了最高的视觉质量和文本对齐度,同时实现了最低的词错误率(14.60%)以获得语音清晰度。在成对人类评估中,它在 2000 次比较中相比 Ovi 1.1 取得了 80.0% 的胜率,相比 LTX 2.3 取得了 60.9% 的胜率。我们开源了完整的模型栈,包括基础模型、蒸馏模型、超分辨率模型和推理代码库。
AnimalCLAP: Taxonomy-Aware Language-Audio Pretraining for Species Recognition and Trait Inference
引入分类学信息的语言 - 音频预训练框架,通过层级生物信息提升物种识别和生态特征推断
- 作者: Risa Shinoda, Kaede Shiohara, Nakamasa Inoue et al.
- 来源: HuggingFace Trending (3 upvotes)
- 链接: arXiv | Project
- 关键贡献:
- 提出 AnimalCLAP,一个分类学感知的语言 - 音频框架,包含新数据集和模型
- 构建 4,225 小时录音数据集,覆盖 6,823 个物种,标注 22 种生态特征
- 利用分类结构对齐音频和文本表示,提升未见物种的识别能力
- 可直接从物种叫声推断生态和生物属性,性能优于 CLAP
- 相关技术: Language-Audio Pretraining, Taxonomy-Aware Learning, Species Recognition
- 代码/权重: 已开源 ✅
📄 Abstract 中文翻译
动物叫声为野生动物评估提供了关键洞察,特别是在森林等复杂环境中,有助于物种识别和生态监测。深度学习的最新进展实现了从叫声自动分类物种。然而,分类训练期间未见过的物种仍然具有挑战性。为了解决这一限制,我们引入 AnimalCLAP,一个分类学感知的语言 - 音频框架,包含一个整合层级生物信息的新数据集和模型。具体而言,我们的发声数据集由 4,225 小时的录音组成,覆盖 6,823 个物种,标注有 22 种生态特征。AnimalCLAP 模型在该数据集上训练,使用分类结构对齐音频和文本表示,提升未见物种的识别。我们证明,所提出的模型能够有效地直接从物种叫声推断生态和生物属性,相比 CLAP 实现了更优的性能。我们的数据集、代码和模型将在 https://dahlian00.github.io/AnimalCLAP_Page/ 公开提供。
🧠 LLM Training
PivotRL: High Accuracy Agentic Post-Training at Low Compute Cost
结合 SFT 效率与 RL 泛化能力的新型后训练框架,4 倍减少 rollout 轮次实现同等精度
- 作者: NVIDIA, Junkeun Yi, Damon Mosk-Aloyama, Baihe Huang et al.
- 来源: HuggingFace Trending (11 upvotes)
- 链接: arXiv
- 关键贡献:
- 提出 PivotRL 框架,在现有 SFT 轨迹上操作,结合 SFT 的计算效率与端到端 RL 的 OOD 泛化能力
- 执行局部 on-policy rollout 并筛选 pivot:信息丰富的中间轮次,采样动作在结果上表现出高方差
- 使用功能等价动作的奖励而非严格要求与 SFT 数据演示的字符串匹配
- 在四个 agent 领域上相比标准 SFT 实现 +4.17% 域内精度提升,+10.04% 非 agent 任务 OOD 精度提升
- 在 agent 编码任务上,相比端到端 RL 减少 4 倍 rollout 轮次实现同等精度
- 相关技术: Reinforcement Learning, Post-Training, Agentic Tasks, SFT
- 代码/权重: 已应用于 NVIDIA Nemotron-3-Super-120B-A12B
📄 Abstract 中文翻译
长程 agent 任务的后训练存在计算效率与泛化能力之间的张力。虽然监督微调 (SFT) 计算效率高,但经常遭受域外 (OOD) 性能退化。相反,端到端强化学习 (E2E RL) 保留了 OOD 能力,但由于多轮 on-policy rollout 而产生高计算成本。我们引入 PivotRL,一个在现有 SFT 轨迹上操作的新颖框架,以结合 SFT 的计算效率与 E2E RL 的 OOD 精度。PivotRL 依赖两个关键机制:首先,它执行局部的 on-policy rollout 并筛选 pivot:信息丰富的中间轮次,其中采样动作在结果上表现出高方差;其次,它利用功能等价动作的奖励,而非严格要求与 SFT 数据演示的字符串匹配。我们从理论上证明,这些机制激励具有高自然梯度范数的强学习信号,同时最大程度地保留与训练任务无关动作的策略概率排序。与在相同数据上的标准 SFT 相比,我们证明 PivotRL 在四个 agent 领域上平均实现 +4.17% 更高的域内精度,在非 agent 任务中实现 +10.04% 更高的 OOD 精度。值得注意的是,在 agent 编码任务上,PivotRL 以 4 倍更少的 rollout 轮次实现与 E2E RL 相当的精度。PivotRL 已被 NVIDIA 的 Nemotron-3-Super-120B-A12B 采用,作为生产级 agent 后训练的主力。
🤖 AI Agents
OpenResearcher: A Fully Open Pipeline for Long-Horizon Deep Research Trajectory Synthesis
完全开源的深度研究 Agent 训练管道,离线合成 97K 长程轨迹,BrowseComp-Plus 达 54.8% 精度
- 作者: TIGER-Lab, Zhuofeng Li, Dongfu Jiang, Wenhu Chen et al.
- 来源: HuggingFace Trending (50 upvotes)
- 链接: arXiv | GitHub | Demo
- 关键贡献:
- 提出 OpenResearcher,可复现的离线深度研究轨迹合成管道,不依赖专有 Web API
- 解耦一次性语料库 bootstrapping 与多轮轨迹合成,在 15M 文档语料上完全离线执行搜索 - 浏览循环
- 使用三个显式浏览原语:search、open、find
- 使用 GPT-OSS-120B 作为教师模型,合成超过 97K 轨迹,包括 100+ 工具调用的长程尾部
- 在 30B-A3B 骨干上进行 SFT,在 BrowseComp-Plus 上达到 54.8% 精度(+34.0 点提升),在 BrowseComp、GAIA、xbench-DeepSearch 上保持竞争力
- 已被 NVIDIA Nemotron 系列模型采用
- 相关技术: Deep Research Agents, Trajectory Synthesis, Offline Browser Environment
- 代码/权重: 已开源 ✅ (pipeline + trajectories + checkpoints + offline environment)
📄 Abstract 中文翻译
训练深度研究 agent 需要交织搜索、证据聚合和多步推理的长程轨迹。然而,现有的数据收集管道通常依赖专有 Web API,使得大规模轨迹合成成本高昂、不稳定且难以复现。我们提出 OpenResearcher,一个可复现的管道,将一次性语料库 bootstrapping 与多轮轨迹合成解耦,并在 15M 文档语料上使用三个显式浏览原语(搜索、打开、查找)完全离线执行搜索 - 浏览循环。使用 GPT-OSS-120B 作为教师模型,我们合成了超过 97K 轨迹,包括具有 100+ 工具调用的大量长程尾部。在这些轨迹上对 30B-A3B 骨干进行监督微调,在 BrowseComp-Plus 上实现 54.8% 精度(+34.0 点提升超过基础模型),同时在 BrowseComp、GAIA 和 xbench-DeepSearch 上保持竞争力。由于环境是离线且完全可检测的,它还能实现受控分析,我们的研究揭示了深度研究管道设计的实用洞察,包括数据过滤策略、agent 配置选择以及检索成功如何与最终答案精度相关联。我们在 https://github.com/TIGER-AI-Lab/OpenResearcher 发布管道、合成轨迹、模型检查点和离线搜索环境。
📈 Trending 补充
今日 HuggingFace 热门论文主要集中在音视频生成、音频理解和 Agent 训练方向。daVinci-MagiHuman 作为当日 #1 论文,展示了单流架构在音视频同步生成上的突破性进展;AnimalCLAP 则探索了生物分类学知识在音频预训练中的应用;PivotRL 和 OpenResearcher 分别在 RL 后训练和深度研究 agent 合成上提供了高效解决方案。
Generated on 2026-03-25 00:00 UTC | Sources: HuggingFace Papers
Cover image source: Pixiv