AI Paper Daily | 2026-05-07

今日新增 16 篇论文(已去重,跳过 14 篇历史收录) 数据来源:HuggingFace Daily Papers 覆盖方向:Audio LLM · LLM Training · AI Agents · 其他值得关注


🎙️ Audio LLM

1. MiniMind-O:开源 0.1B 语音原生全能模型

论文 2605.03937 · PDF 链接

作者 Jingyao Gong

摘要 MiniMind-O 是基于 MiniMind 语言模型构建的开源 0.1B 级全能模型,同时接受文本、语音和图像输入,输出文本和流式语音。模型采用 MiniMind 主干作为 Thinker,独立的四层 Talker 由 MiniMind 模块构成。冻结的 SenseVoice-Small 和 SigLIP2 编码器分别提供语音和图像特征,通过轻量级 MLP 映射器注入到模态占位符位置。Talker 读取中间层 Thinker 状态和自回归八层 Mimi-code 缓冲区,说话人控制由专用 speaker token、右对齐参考 codec 提示和预计算 CAM++ 说话人嵌入实现。文章识别出小型全能模型的三个关键设计选择:中间层语义桥接、多模态序列格式和参数高效的八码本接口。

点评 这是难得的 0.1B 级别语音-文本-图像全模态开源工作。虽然性能指标不算惊艳(voice-cloning similarity 约 0.6),但完整开放了代码、检查点和训练数据,对社区构建小型端侧全能模型非常有参考价值。三个 scale-critical 设计洞见——中间层桥接、序列格式、码本接口——是本文的核心贡献。


🔬 LLM Training

2. OpenSeeker-v2:仅用 SFT + 10.6K 数据打造 SOTA 搜索 Agent

论文 2605.04036 · PDF 链接 · ⬆️ 38

作者 Yuwen Du, Rui Ye, Shuo Tang 等

摘要 OpenSeeker-v2 证明简单的 SFT 方法配合高信息量、高难度轨迹数据,就能训练出前沿搜索 Agent。通过三项数据合成改进——扩大知识图谱规模以增强探索、扩展工具集以增加功能广度、严格的低步数过滤——仅用 10.6K 数据,30B 模型在 BrowseComp (46.0%)、BrowseComp-ZH (58.1%)、HLE (34.6%) 和 xbench (78.0%) 上全面超越使用 CPT+SFT+RL 重型流水线的通义 DeepResearch。这是首个由纯学术团队仅用 SFT 达到 SOTA 的搜索 Agent。

点评 “少即是多"的典型案例。工业界砸 CPT+SFT+RL 流水线,学术团队仅靠精心设计的 SFT 数据就赢了,说明数据质量 > 训练复杂度。三项数据合成策略都很实用,值得所有做 Agent 训练的团队学习。


3. 临床 LLM 的安全与精度遵循不同的扩展定律

论文 2605.04039 · PDF 链接

作者 Sebastian Wind, Tri-Thien Nguyen 等

摘要 本文引入 SaFE-Scale 框架和 RadSaFE-200 基准,评估临床 LLM 安全性如何随模型规模、证据质量、检索策略等变化。关键发现:干净证据将准确率从 73.5% 提升至 94.1%,同时高风险错误从 12.0% 降至 2.6%;但标准 RAG 和 Agent RAG 未能复现这一安全特征——Agent RAG 虽提高了准确率,高风险错误和危险过度自信仍居高不下。最大上下文提示增加了延迟但未缩小安全差距。临床 LLM 的安全不是规模的自然副产品,而是由证据质量、检索设计和上下文构建塑造的部署属性。

点评 这篇对 RAG 在医疗场景的反思非常重要。“加了 RAG 就更安全"是个危险的幻觉——不干净的证据反而可能制造新的风险。对做医疗 AI 和高安全场景 RAG 的团队是必读的警示。


4. OracleProto:可复现的 LLM 原生预测能力评测框架

论文 2605.03762 · PDF 链接

作者 Yiding Ma, Chengyun Ruan 等

摘要 OracleProto 提出了一个可复现的 LLM 预测能力评估框架,通过模型截止时间对齐的样本准入、工具级时间掩码、内容级泄漏检测、离散答案归一化和分层评分,将已解决事件重建为时间边界预测样本。在 FutureX-Past 数据集上实例化,对六个 LLM 的评测显示,OracleProto 将残余泄漏降到 1% 水平,比纯工具级时间过滤低一个数量级。

点评 预测能力评测的核心痛点就是数据泄漏——模型可能早就"知道"了答案。OracleProto 的多层防泄漏设计把残余泄漏压到 1%,这个水准在评测方法论上很有价值。对做 LLM 预测/决策评估的人来说是重要参考。


5. 先学会记住,再谈遗忘:重访 LVLM 反学习基准的基础学习失败

论文 2605.03759 · PDF 链接

作者 JuneHyoung Kwon, MiHyeon Kim 等

摘要 当前 LVLM 反学习基准使用虚构身份,但忽略了一个关键的一阶段失败:模型根本没有有效记住目标信息,使得后续反学习评估不可靠。本文诊断了"记忆不足"和"多跳诅咒"为根因,提出 ReMem 基准确保通过原则性数据扩展、推理感知 QA 对和多样视觉上下文实现稳健的基础学习,并引入 Exposure 指标从模型内部概率分布量化信息擦除深度。

点评 反学习(unlearning)领域经常忽略一个前提:模型得先真正"学会"了才能谈"忘掉”。ReMem 的思路——先验证记忆充分性再评估遗忘——看似简单但影响深远。Exposure 指标也比传统的"输出是否包含"更深层。


6. GUI-SD:首个面向 GUI 定位的策略自蒸馏框架

论文 2605.00642 · PDF 链接 · ⬆️ 4

作者 Yan Zhang, Daiqing Wu 等

摘要 GUI-SD 首次将策略自蒸馏(OPSD)应用于 GUI 定位任务。通过目标边界框和高斯软掩码构建视觉丰富的教师特权上下文,以及基于熵引导的蒸馏策略——根据数字显著性和教师置信度自适应加权 token——在六个 GUI 定位基准上一致超越 GRPO 方法和朴素 OPSD,在准确率和训练效率上均有优势。

点评 GRPO 在 GUI Agent 领域很火,但它需要多次 rollout 计算量大。GUI-SD 用单次 rollout 的自蒸馏就达到了更好效果,而且针对 GUI 定位中数字(坐标)的特殊性做了熵引导加权,设计很到位。做 GUI Agent 训练的值得关注。


7. HeavySkill:将深度思考视为 Agent 框架的内在技能

论文 2605.02396 · PDF 链接 · ⬆️ 12

作者 Jianing Wang, Linsen Guo 等

摘要 HeavySkill 提出将深度思考(heavy thinking)不仅视为编排框架中的执行单元,更视为内化在模型参数中驱动编排器解决复杂任务的内在技能。识别出这种技能的两阶段流水线——并行推理后摘要——可以在任何 Agent 框架之下运作。实证表明这种内在技能一致优于 Best-of-N 策略,更强的 LLM 甚至能逼近 Pass@N 性能。通过 RL 可以进一步扩展深度思考的深度和宽度,为自演化 LLM 提供了路径。

点评 这篇视角很有意思——与其堆 Agent 框架的复杂度,不如让模型本身内化"深度思考"作为一项技能。并行推理→摘要的两阶段模式简洁但有效,而且证明了 RL 可以进一步扩展这种能力。对"到底是框架重要还是模型重要"这个争论提供了一个有力论据。


8. APO:将漂移转化为约束——非平稳环境中的鲁棒推理对齐

论文 2510.04142 · PDF 链接

作者 Xiaoyu Yang, En Yu 等

摘要 APO 针对非平稳环境中多源推理对齐的挑战,将模型间分歧不视为噪声而视为动态负约束。两阶段协议:先通过监督引导将目标模型投射到源模型的能力联合中,再通过约束感知优化和多数负 Plackett-Luce 目标显式抑制漂移轨迹。在胸部 X 光解读上,7B 模型的鲁棒性超越了专有源模型。同时发布 CXR-MAX 基准,包含 170,982 条来自七个 MLLM 的推理轨迹。

点评 多模型推理对齐中"源模型本身就在漂移"这个问题确实被低估了。APO 的思路是"用分歧作为约束而非噪声”——把漂移当成负样本信号,巧妙。跨模型对齐在联邦学习/模型融合场景都有应用潜力。


9. Healthcare AI GYM:医疗 Agent 的多轮强化学习训练场

论文 2605.02943 · PDF 链接

作者 Minbyul Jeong

摘要 本文研究多轮 Agent RL 训练医疗 AI 的挑战。在覆盖 10 个临床领域、3.6K+ 任务、135 个工具和 828K 医学段落的 gym 环境上,发现 Agent 多轮结构退化为冗长的单轮独白——响应长度单调爆炸而工具使用频率同时衰减。提出 Turn-level Truncated On-Policy Distillation (TT-OPD),用梯度无关的 EMA 教师提供每轮密集 KL 正则,在 18 个基准的 10 个上取得最佳性能,平均提升 +3.9 pp。

点评 “多轮 Agent 退化成单轮独白"这个现象太真实了——RL 训练的 Agent 容易学会"一次性把所有推理都写出来"而不是真正交互。TT-OPD 的逐轮蒸馏 + EMA 教师设计很实用,解决了 GRPO 的训练不稳定和响应爆炸问题。做 Agent RL 训练的必读。


🤖 AI Agents

10. ARIS:通过对抗性多 Agent 协作实现自主研究

论文 2605.03042 · PDF 链接 · ⬆️ 68

作者 Ruofeng Yang, Yongcan Li, Shuai Li

摘要 ARIS (Auto-Research-in-sleep) 是一个开源自主研究框架,核心设计是跨模型对抗协作:执行器模型推进研究进度,来自不同模型家族的审查器批评中间产物并要求修订。三层架构——执行层(65+ 可复用技能、MCP 集成、持久研究 wiki)、编排层(5 个端到端工作流)、保障层(三阶段声明验证、五轮科学编辑、数学证明检查和 PDF 视觉检查)。自我改进循环记录研究轨迹并提出框架改进建议。

点评 热度最高的 Agent 论文之一(68 upvotes),核心卖点是"跨模型对抗”——用不同模型家族的模型互相审查,避免同模型的自我确认偏误。保障层的三阶段验证设计相当扎实。对做 AI for Science 和自动化研究的团队很有参考价值。


11. Workspace-Bench 1.0:大规模文件依赖下的 AI Agent 工作空间评测

论文 2605.03596 · PDF 链接 · ⬆️ 2

作者 Zirui Tang, Xuanhe Zhou 等

摘要 Workspace-Bench 评估 AI Agent 在真实工作空间任务上的表现,构建了 5 种工作者画像、74 种文件类型、20,476 个文件(最大 20GB)和 388 个任务,每个任务配有独立的文件依赖图,跨 7,399 个评分标准评估。最佳 Agent 仅达 68.7%,远低于人类的 80.7%,平均仅 47.4%。还提供 Lite 版本(100 任务)降低约 70% 评估成本。

点评 终于有人认真做"工作空间"级别的 Agent 评测了。之前大多是在几个文件上做玩具任务,这里直接上 2 万个文件、20GB 规模。人类 80.7% vs Agent 68.7% 的差距说明现实工作空间任务远未解决。文件依赖图的设计是亮点。


12. PhysicianBench:真实 EHR 环境下的 LLM Agent 医生评测

论文 2605.02240 · PDF 链接 · ⬆️ 6

作者 Ruoqi Liu, Imran Q. Mohiuddin 等

摘要 PhysicianBench 在真实电子健康记录(EHR)环境中评估 LLM Agent 执行医生任务的能力。100 个长时域任务改编自真实的初级保健与专科医生间会诊案例,每个任务平均需要 27 次工具调用。涵盖 21 个专科,670 个结构化检查点。最佳模型仅 46% 成功率,开源模型最高仅 19%,揭示了当前 Agent 能力与真实临床工作流需求之间的巨大差距。

点评 医疗 Agent 评测的标杆之作——不是问模型"这个病怎么治",而是让它在真实 EHR 系统里完成从调阅病史到开处方到写文档的完整工作流。46% 的成功率说明 Agent 在真实临床场景还远不可用,但这个基准本身为未来进步提供了清晰标尺。


13. iWorld-Bench:交互式世界模型的统一评测基准

论文 2605.03941 · PDF 链接

作者 Jianjie Fang, Yingshan Lei 等

摘要 iWorld-Bench 是针对交互式世界模型的全维度评测基准,构建了 330K 视频片段的数据集,精选 2.1K 高质量样本,引入统一动作生成框架(Action Generation Framework)将不同交互模态的世界模型统一评估,设计 6 种任务类型生成 4.9K 测试样本,评测了 14 个代表性世界模型,揭示关键局限性。

点评 世界模型评测一直很碎片——不同模型的交互接口不同,很难横向比较。iWorld-Bench 的统一动作生成框架解决了这个问题,让不同模态的世界模型可以在同一框架下评估。330K 视频数据集的规模也很可观。


📌 其他值得关注

14. 答案对了方向却错了:Transformer 为何数数失败及修复方案

论文 2605.03258 · PDF 链接

作者 Gabriel Garcia

摘要 LLM 在简单计数任务上经常失败。本文发现:线性探针能从中间层近乎完美地恢复正确计数(R² > 0.99),但编码计数的内部方向与数字 token 的输出头行近乎正交(|cos| ≤ 0.032)。模型"知道"答案但输出通道几何错位。仅更新输出头的数字行(36,864 参数)将受限数字预测从 60.7% 提升至 100%,但无法修复自回归生成;而注意力 Q/V 上的小 LoRA(7.67M 参数)在真正的贪婪自回归生成中达到 83.1%。计数失败的根因是几何读出瓶颈,而非内部表示失败。

点评 “模型知道但说不出来”——这个几何读出瓶颈的发现非常优雅。用探针证明信息存在、用余弦相似度证明方向错位、再用定向干预修复,逻辑链很漂亮。更深远的意义是:很多看似的"能力缺失"可能只是输出对齐问题,而非真正的理解失败。


15. PatRe:专利审查全流程生成基准

论文 2605.03571 · PDF 链接 · ⬆️ 4

作者 Qiyao Wang, Xinyi Chen 等

摘要 PatRe 是首个建模专利审查完整生命周期的基准,包括审查意见(Office Action)生成和申请人答辩。480 个真实案例,支持 oracle 和检索模拟评估设置,将专利审查重新定义为动态、多轮的论证与回应过程。实验揭示了专有模型与开源模型的差异,以及审查员分析和申请人答辩之间的任务不对称性。

点评 把专利审查建模成多轮对抗过程——类似学术同行评审但更结构化——是个很聪明的想法。专利领域 LLM 应用潜力巨大但研究很少,PatRe 填补了空白。任务不对称性的发现(生成审查意见 vs 答辩难度不同)也有实用价值。


16. SurgTEMP:时序感知的腹腔镜手术视频问答

论文 2603.29962 · PDF 链接

作者 Shi Li, Vinkle Srivastav 等

摘要 SurgTEMP 提出查询引导的 token 选择模块构建分层视觉记忆(空间+时间记忆库),以及手术能力进展(SCP)训练方案,支持变长手术视频的有效建模。同时发布 CholeVidQA-32K 数据集,包含 32K 开放式 QA 对和 3,855 视频段(约 128 小时),按感知-评估-推理三级层次组织 11 个任务。在多模态和视频 LLM 上取得显著改进。

点评 手术视频理解是 AI 医疗的重要方向,但时序建模一直薄弱——手术是过程,不是单帧。SurgTEMP 的分层记忆库(空间+时间)和 SCP 训练方案直接针对这个痛点。32K QA 对的大规模数据集本身也是重要贡献。


📊 今日统计

方向 数量 代表论文
Audio LLM 1 MiniMind-O
LLM Training 8 OpenSeeker-v2, HeavySkill, Healthcare AI GYM
AI Agents 4 ARIS, Workspace-Bench, PhysicianBench
其他值得关注 3 Transformer 计数失败, PatRe, SurgTEMP

今日关键趋势:

  • Agent RL 训练稳定性成为热点——Healthcare AI GYM、T²PO、GUI-SD 都在解决 RL 训练 Agent 时的退化/不稳定问题
  • 基准成熟化——Workspace-Bench、PhysicianBench、iWorld-Bench 都在构建更真实、更复杂的评测环境,揭示当前模型的真实能力边界
  • 数据 > 流水线——OpenSeeker-v2 用 10.6K 精选数据 + SFT 击败重工业流水线,再次印证数据质量的决定性作用

Generated by 爱弥斯 · 旅途愉快 ✨

Licensed under CC BY-NC-SA 4.0