今日概览
共收录 30 篇论文 | Audio LLM: 6篇 | LLM Training: 14篇 | AI Agents: 7篇 | 其他值得关注: 3篇 来源: HuggingFace(30)
重点推荐 ⭐
Nemotron 3 Super: Open, Efficient Mixture-of-Experts Hybrid Mamba-Transformer Model for Agentic Reasoning
NVIDIA 首个 NVFP4 预训练 + LatentMoE + MTP 推理加速,120B 参数仅激活 12B,支持 1M 上下文
- 作者: NVIDIA et al.
- 来源: HuggingFace Trending (16 upvotes)
- 链接: arXiv | PDF
- 关键贡献: 首个 NVFP4 预训练的大模型,引入 LatentMoE 架构同时优化 FLOP 和参数效率,MTP 层实现原生推测解码。相比 GPT-OSS-120B 和 Qwen3.5-122B 推理吞吐量分别提升 2.2x 和 7.5x
- 相关技术: Mixture-of-Experts, Mamba-Transformer hybrid, speculative decoding, NVFP4 quantization
📄 Abstract 中文翻译
本文介绍 Nemotron 3 Super,一个 1200 亿参数(激活 120 亿)的混合 Mamba-Attention MoE 模型。这是 Nemotron 3 系列中首个采用 NVFP4 预训练、利用 LatentMoE 新架构同时优化精度/FLOP 和精度/参数效率、并集成 MTP 层实现原生推测解码推理加速的模型。我们在 25 万亿 token 上预训练后进行 SFT + RL 后训练。最终模型支持最长 1M 上下文,在通用基准上达到可比精度,同时推理吞吐量相较 GPT-OSS-120B 和 Qwen3.5-122B 分别提升 2.2x 和 7.5x。模型、数据集和量化检查点均在 HuggingFace 开源。
KnowRL: Boosting LLM Reasoning via Reinforcement Learning with Minimal-Sufficient Knowledge Guidance
知识点最小充分子集引导 RL 训练,1.5B 模型无提示达 70.08,加提示 74.16,1.5B 级 SOTA
- 作者: Linhao Yu et al.
- 来源: HuggingFace Trending (82 upvotes) 🔥
- 链接: arXiv | PDF
- 关键贡献: 将提示设计建模为最小充分引导问题,通过约束子集搜索(CSS)构建紧凑的知识点子集。发现剪枝交互悖论——去掉单个 KP 有帮助但去掉多个可能有害。KnowRL-Nemotron-1.5B 在 8 个推理基准上全面超越强 RL 和提示基线
- 相关技术: RLVR, knowledge-guided RL, hint design, pruning interaction paradox
- 代码: https://github.com/Hasuer/KnowRL
📄 Abstract 中文翻译
RLVR 提升了大语言模型的推理能力,但在困难问题上受限于严重的奖励稀疏性。近期基于提示的 RL 方法通过注入部分解或抽象模板缓解稀疏性,但通常通过增加更多 token 来扩展引导,带来冗余、不一致和额外训练开销。我们提出 KnowRL,将提示设计视为最小充分引导问题。在 RL 训练中,KnowRL 将引导分解为原子知识点(KP),并使用约束子集搜索(CSS)构建紧凑的、感知交互的子集。我们进一步发现剪枝交互悖论——移除一个 KP 可能有帮助,但移除多个这样的 KP 却可能有害——并在该依赖结构下显式优化鲁棒子集筛选。KnowRL-Nemotron-1.5B 在无 KP 提示推理时达到 70.08 平均准确率,已超过 Nemotron-1.5B +9.63 分;使用选定 KP 后提升至 74.16,在该规模上达到新 SOTA。
OmniShow: Unifying Multimodal Conditions for Human-Object Interaction Video Generation
首个统一文本、参考图、音频、姿态多模态条件的人生成交互视频框架
- 作者: Donghao Zhou et al.
- 来源: HuggingFace Trending (63 upvotes) 🔥
- 链接: arXiv | PDF
- 关键贡献: 提出统一多模态条件的 HOI 视频生成框架,通过 Unified Channel-wise Conditioning 和 Gated Local-Context Attention 解决可控性与质量权衡,Decoupled-Then-Joint 训练策略利用异构数据集,并建立 HOIVG-Bench 评测基准
- 相关技术: human-object interaction, multimodal conditioning, audio-visual synchronization, model merging
📄 Abstract 中文翻译
本研究聚焦人生成交互视频生成(HOIVG),旨在基于文本、参考图像、音频和姿态条件合成高质量的人-物交互视频。现有方法无法同时支持所有条件。我们提出 OmniShow 端到端框架,引入统一通道条件实现高效图像和姿态注入,门控局部上下文注意力确保精确音视频同步,以及先解耦后联合训练策略利用异构子任务数据集。此外建立 HOIVG-Bench 评测基准。实验表明 OmniShow 在各种多模态条件设置下均达到整体 SOTA。
Lightning OPD: Efficient Post-Training for Large Reasoning Models with Offline On-Policy Distillation
无需教师服务器的离线策略蒸馏,Qwen3-8B 30 GPU 时训到 AIME 69.9%,比标准 OPD 快 4x
- 作者: Yecheng Wu, Song Han, Hai Cai
- 链接: arXiv | PDF
- 关键贡献: 发现教师一致性(teacher consistency)是 OPD 成功的关键条件——违反该条件会引入不可约梯度偏差。提出 Lightning OPD,通过预计算教师 log-prob 实现完全离线的策略蒸馏,消除对教师服务器的需求,同时与标准 OPD 共享相同最优解
- 相关技术: on-policy distillation, teacher consistency, offline RL, speculative decoding
📄 Abstract 中文翻译
策略蒸馏(OPD)已成为大模型后训练的高效范式,但标准 OPD 需要训练期间持续运行教师推理服务器。本文研究离线策略蒸馏,发现自然方法(在 SFT 滚动上预计算教师 log-prob)无法可靠匹配标准 OPD 性能。我们识别出此前被忽视的关键条件——教师一致性:SFT 和 OPD 必须使用同一教师模型。违反此条件会引入不可约梯度偏差。基于此,Lightning OPD 在 SFT 滚动上预计算教师 log-prob 来强制教师一致性,完全消除教师服务器需求。从 Qwen3-8B-Base 出发,仅 30 GPU 时即达 AIME 2024 69.9%,较标准 OPD 加速 4.0x。
LLM Training
| # | 论文 | 一句话 | 热度 |
|---|---|---|---|
| 1 | You Only Judge Once: Multi-response Reward Modeling in a Single Forward Pass | 单次前向传播评分多候选响应的判别式多模态奖励模型,N 倍加速 + 新基准 MR²Bench | 6⬆ |
| 2 | Visual Preference Optimization with Rubric Rewards | 基于实例化评分量表的 rDPO 框架,macro avg 从 81.14→82.69,超越结果过滤基线 | 1⬆ |
| 3 | ClawGUI: A Unified Framework for Training, Evaluating, and Deploying GUI Agents | 首个开源 GUI Agent RL 基础设施 + 标准化评测 + 多平台部署,ClawGUI-2B 超 MAI-UI-2B 6% | 120⬆🔥 |
| 4 | Agentic Aggregation for Parallel Scaling of Long-Horizon Agentic Tasks | AggAgent 将并行轨迹视为环境进行智能聚合,深研任务最高 +10.3%,聚合成本仅等于一次滚动 | 13⬆ |
| 5 | Introspective Diffusion Language Models | 首个匹配同规模 AR 模型质量的 DLM,AIME-24 69.6,吞吐量为先前 SOTA DLM 的 3x | 19⬆ |
| 6 | Nucleus-Image: Sparse MoE for Image Generation | 17B 总参/2B 激活的稀疏 MoE 扩散模型,GenEval/DPG-Bench 匹配或超越更大模型,首个完全开源 MoE 扩散 | 4⬆ |
| 7 | Rethinking On-Policy Distillation of Large Language Models | 系统研究 OPD 动力学,发现思考模式兼容性和教师新能力是成功两条件,97-99% 概率质量集中于少量共享 token | 58⬆🔥 |
| 8 | Parcae: Scaling Laws For Stable Looped Language Models | 稳定循环架构,通过负对角参数化约束注入参数谱范数,1.3B 参数下相对质量达 2x Transformer 的 87.5% | 2⬆ |
| 9 | Solving Physics Olympiad via Reinforcement Learning on Physics Simulators | 用物理模拟器生成合成数据训练 LLM 物理推理,IPhO 提升 5-10 个百分点,零样本 sim-to-real 迁移 | 15⬆ |
| 10 | Eliciting Medical Reasoning with Knowledge-enhanced Data Synthesis | MedSSR:罕见病知识合成 + 半监督 RL,不依赖昂贵的推理链蒸馏,罕见病任务最高 +5.93% | 4⬆ |
📄 各论文详情
You Only Judge Once (2604.10966) 提出判别式多模态奖励模型,将多候选响应拼接后单次前向传播评分,通过交叉熵实现直接比较推理。在 6 个多模态奖励基准上达到 SOTA,超过更大的生成式和判别式模型。同时构建 MR²Bench-Image 和 MR²Bench-Video 两个新基准。用于 GRPO RL 训练时显著提升开放生成质量。
Visual Preference Optimization with Rubric Rewards (2604.13029) rDPO 框架为每个图像-指令对构建实例化评分量表(rubric),离线构建指令-量表池并在策略数据构建时复用。量表过滤将 macro average 从 81.14 提升至 82.69(结果过滤反而降至 75.82),在综合基准上达 61.01,大幅超越风格约束基线 52.36。
ClawGUI (2604.11784) 首个开源 GUI Agent 全栈框架:ClawGUI-RL 支持虚拟环境和物理设备的并行 RL 训练(集成 GiGPO + PRM);ClawGUI-Eval 在 6 基准 11+ 模型上实现 95.8% 基线复现率;ClawGUI-Agent 通过 12+ 聊天平台部署到 Android/HarmonyOS/iOS。ClawGUI-2B 在 MobileWorld GUI-Only 上超 MAI-UI-2B 6%。
AggAgent (2604.11753) 提出智能体聚合方法 AggAgent,将并行轨迹视为环境,配备轻量工具按需检索和综合信息。在 6 基准 3 模型族(GLM-4.7、Qwen3.5、MiniMax-M2.5)上超越所有聚合方法,深研任务最高 +10.3%,聚合成本仅一次智能体滚动。
Introspective Diffusion Language Models (2604.11035) 发现扩散语言模型落后于 AR 的根本原因是内省一致性缺失——AR 模型接受自己生成的 token 而 DLM 不接受。提出 I-DLM,通过内省步进解码(ISD)在单次前向传播中同时验证和推进。首个匹配同规模 AR 质量的 DLM,AIME-24 69.6,吞吐量为先前 SOTA DLM 的约 3x。
Nucleus-Image (2604.12163) 稀疏 MoE 扩散 Transformer,17B 总参/2B 激活,64 路由专家 + Expert-Choice Routing。排除文本 token 骨干、联合注意力跨时间步共享 KV,解耦路由设计分离时间步感知专家分配和条件计算。1.5B 训练对渐进分辨率课程,无需 RL/DPO/人类偏好调优即达顶级质量。
Rethinking OPD (2604.13016) 系统研究策略蒸馏动力学,发现两个成功条件:师生思考模式兼容、教师提供学生未见的新能力。弱到强反向蒸馏验证同族 1.5B/7B 教师与学生分布不可区分。成功 OPD 中 97-99% 概率质量集中于少量共享高概率 token。提出离线冷启动和教师对齐提示选择恢复失败 OPD。
Parcae (2604.12946) 将循环架构建模为残差流上的非线性时变动力系统,发现不稳定性源于注入参数大谱范数。提出负对角参数化约束谱范数的稳定循环架构 Parcae,验证困惑度降低 6.3%。推导训练/测试时循环缩放定律,1.3B 参数下 CORE/Core-Extended 提升 2.99/1.18,相对质量达 2x Transformer 的 87.5%。
Physics Olympiad via RL (2604.11805) 用物理模拟器生成随机场景和合成 QA 对,通过 RL 训练 LLM 物理推理。模型在 IPhO 问题零样本迁移提升 5-10 个百分点,证明模拟器可作为可扩展数据生成器突破互联网 QA 数据限制。
MedSSR (2604.11547) 利用罕见病知识合成分布可控推理问题,用策略模型自身生成伪标签。两阶段训练:自监督 RL(伪标签合成数据)→ 监督 RL(人工标注真实数据)。在 Qwen 和 Llama 上 10 个医学基准全面超越现有方法,罕见病任务最高 +5.93%。
AI Agents
| # | 论文 | 一句话 | 热度 |
|---|---|---|---|
| 1 | LMM-Searcher: Towards Long-horizon Agentic Multimodal Search | 基于文件系统的视觉表示机制,支持 100 轮搜索的长期多模态深搜智能体 | 15⬆ |
| 2 | CocoaBench: Evaluating Unified Digital Agents in the Wild | 统一数字智能体基准,融合视觉/搜索/编码,最佳系统仅 45.1% 成功率 | 32⬆ |
| 3 | AiScientist: Toward Autonomous Long-Horizon Engineering for ML Research | 文件即总线 + 层次编排的自主 ML 研究系统,PaperBench +10.54,MLE-Bench Lite 81.82% | 22⬆ |
| 4 | RoMem: Time is Not a Label - Continuous Phase Rotation for Temporal KG and Agentic Memory | 连续相位旋转知识图谱模块,过期事实自然失相,时序推理 MRR 2-3x 提升 | 1⬆ |
| 5 | Habitat-GS: High-Fidelity Navigation Simulator with Dynamic Gaussian Splatting | 3DGS 场景 + 高斯人形化身,兼具真实渲染与导航障碍,具身智能模拟新范式 | 12⬆ |
| 6 | DAR: Diversity-Aware Message Retention for Multi-Agent Debate | 保留最大分歧子集的多智能体辩论框架,随 agent 数量增长优势更明显 | 2⬆ |
| 7 | OccuBench: Evaluating AI Agents on Real-World Professional Tasks via Language World Models | 100 个真实职业场景跨行业评测,隐式故障比显式错误更难检测,GPT-5.2 推理努力 +27.5 分 | 3⬆ |
📄 各论文详情
LMM-Searcher (2604.12890) 提出文件化视觉表示机制,将视觉资产卸载到外部文件系统并映射为轻量文本标识符(UID),缓解上下文爆炸同时保留多模态信息。配备按需视觉加载工具实现渐进式主动感知。合成 12K 高质量轨迹微调 Qwen3-VL-Thinking-30A3B,在 MM-BrowseComp 和 MMSearch-Plus 上达到开源 SOTA,成功扩展到 100 轮搜索。
CocoaBench (2604.11201) 人类设计的长视野任务基准,要求灵活组合视觉、搜索和编码能力。仅通过指令和自动评估函数指定,跨不同智能体基础设施可靠评测。最佳系统仅 45.1% 成功率,推理规划、工具使用和视觉定位仍有巨大改进空间。
AiScientist (2604.13018) 长视野 ML 研究工程系统,结合层次编排与权限范围的文件即总线工作空间:顶层编排器通过简洁摘要和工作空间映射维持阶段级控制,专业智能体基于持久工件而非对话交接重新对齐。在 PaperBench 上平均 +10.54,MLE-Bench Lite 达 81.82%。移除文件即总线协议后 PaperBench 降 6.41 分、MLE-Bench Lite 降 31.82 分。
RoMem (2604.11544) 预训练语义速度门将关系文本嵌入映射为波动性评分,演化关系(如"总统")快旋转、持久关系(如"出生地")稳定。结合连续相位旋转,过时事实在复向量空间中自然失相,时序正确事实无需删除即可超越矛盾。时序 KG 完成达 ICEWS05-15 SOTA (72.6 MRR),智能体记忆 MRR/准确率 2-3x 提升。
Habitat-GS (2604.12626) 基于 Habitat-Sim 扩展,集成 3DGS 渲染和可驱动高斯人形化身。每个化身同时作为真实视觉实体和有效导航障碍。3DGS 场景训练的智能体跨域泛化更强,混合域训练最有效。系统可扩展至不同场景复杂度和化身数量。
DAR (2603.20640) 多智能体辩论框架,每轮选择与多数投票最大分歧的响应子集广播。基于索引的保留机制不修改原始消息。随智能体数量增长优势更明显,噪声累积最严重时效果最显著。
OccuBench (2604.10866) 覆盖 10 个行业类别 65 个专业领域 100 个真实职业场景,通过语言世界模型模拟领域环境。隐式故障(截断数据、缺失字段)比显式错误和混合故障更难检测。GPT-5.2 从最小到最大推理努力提升 27.5 分。强智能体不一定是强环境模拟器。
Audio LLM
| # | 论文 | 一句话 | 热度 |
|---|---|---|---|
| 1 | OmniScript: Audio-Visual Script Generation for Long-Form Cinematic Video | 8B 全能模态模型做长视频→剧本层次化生成,比肩 Gemini 3-Pro | 0⬆ |
| 2 | Audio Flamingo Next: Next-Gen Open Audio-Language Models for Speech, Sound, and Music | 覆盖语音/环境声/音乐的全能音频语言模型,支持 30 分钟长音频 + 时序 CoT | 24⬆ |
| 3 | SpotSound: Fine-Grained Temporal Grounding for Large Audio-Language Models | 音频事件时序定位模型 + Needle-in-a-Haystack 基准,抑制幻觉时间戳 | 0⬆ |
| 4 | CSLM: Efficient Training for Cross-lingual Speech Language Models | 跨语言语音 LLM 高效训练,语音-文本交错链式模态生成,无需海量语音数据 | 0⬆ |
| 5 | Persona Non Grata: Safety Evaluation for Persona-Imbued LLMs | 人格注入的安全评估不完整:提示和激活引导暴露不同漏洞,亲社会人格悖论 | 1⬆ |
| 6 | (OmniShow 已在重点推荐中) |
📄 各论文详情
OmniScript (2604.11102) 提出视频到剧本(V2S)新任务:将长视频按场景生成包含角色动作、对话、表情和音频提示的层次化剧本。构建首个标注基准和时序感知层次评估框架。OmniScript 8B 全能模态模型通过 CoT SFT + RL 时序分段奖励渐进训练,在时序定位和多字段语义准确率上显著超越更大开源模型,比肩 Gemini 3-Pro。
Audio Flamingo Next (2604.10905) Audio Flamingo 系列最强版本:更强音频语言基座、超 100 万小时大规模数据构建策略、支持最长 30 分钟音频输入、时序音频思维链(Temporal Audio CoT)将推理步骤锚定到时间戳。20 个基准上超越同规模开源模型,部分超越更大闭源模型。开源 AF-Next-Instruct/Think/Captioner 三变体。
SpotSound (2604.13023) 针对音频语言模型时序定位不可靠的问题,提出新训练目标抑制不存在事件的幻觉时间戳。构建 SpotSound-Bench 基准,目标事件仅占片段约 10%,模拟真实"大海捞针"场景。在时序定位基准上达 SOTA,同时保持通用音频语言任务性能。
CSLM (2604.11096) 基于离散语音 token 的跨语言语音 LLM 高效训练方法。通过持续预训练实现跨模态和跨语言对齐,语音-文本交错链式模态生成增强细粒度模态对齐并降低延迟。无需海量语音数据即可扩展到更多语言。
Persona Non Grata (2604.11120) 发现人格注入的安全评估使用单一方法不完整:提示和激活引导暴露架构依赖的不同漏洞。亲社会人格悖论——Llama-3.1-8B 上高尽责性+高宜人性在提示下最安全,但激活引导后 ASR 达 0.818。推理模型仍达 15-18% 提示 ASR。
其他值得关注
| # | 论文 | 一句话 | 热度 |
|---|---|---|---|
| 1 | Pseudo-Unification: Entropy Probing Reveals Divergent Information Patterns in UMMs | 统一多模态模型的"伪统一"现象:视觉和语言遵循不同熵轨迹,文本高熵创造力 vs 图像低熵保真度 | 38⬆ |
| 2 | Panoptic Pairwise Distortion Graph | 全景配对失真图:将图像对评估从全图推进到区域级结构化拓扑,MLLM 在区域级退化理解上失败 | 1⬆ |
| 3 | CMedTEB & CARE: Benchmarking Chinese Medical Retrieval via Asymmetric Encoders | 中文医学文本嵌入基准 + 非对称检索器(轻量 BERT 查询端 + LLM 文档端),超越对称 SOTA | 1⬆ |
📄 各论文详情
Pseudo-Unification (2604.10949) 提出信息论探测框架,联合分析 10 个统一多模态模型的输入编码和输出生成。发现伪统一源于双重分裂:模态非对称编码(视觉和语言不同熵轨迹)和模式分裂响应(文本高熵创造 vs 图像低熵保真)。只有通过上下文预测统一两端的模型才实现更真正的统一。
Panoptic Pairwise Distortion Graph (2604.11004) 将图像配对评估扩展为区域级失真图(DG),表示密集退化信息。贡献区域级数据集 PandaSet、基准套件 PandaBench 和高效架构 Panda。当前 MLLM 在区域级退化理解上失败,即使提供显式区域提示。
CMedTEB & CARE (2604.10937) 构建覆盖检索/重排/STS 的中文医学文本嵌入基准,经多 LLM 投票 + 临床专家验证。提出非对称检索器 CARE:轻量 BERT 在线编码查询 + LLM 离线编码文档,两阶段渐进训练桥接表示。超越对称 SOTA 且不增加推理延迟。
交叉趋势观察 🔍
- 离线/高效后训练成新热点:Lightning OPD(离线策略蒸馏)、KnowRL(最小知识引导)、rDPO(量表奖励)——都在用更少的计算资源达到更好的训练效果
- 长视野智能体是共识方向:LMM-Searcher(100轮搜索)、AiScientist(ML研究)、AggAgent(并行缩放)、OccuBench(职业任务)——从单步推理走向长程工程
- MoE 架构在多领域开花:Nemotron 3 Super(LLM)、Nucleus-Image(图像生成)、ClawGUI(GUI Agent)——稀疏激活成为效率标配
- 音频语言模型走向细粒度时序:Audio Flamingo Next(时序 CoT)、SpotSound(事件定位)、OmniScript(音视频剧本)——从"听到什么"到"什么时候听到的"