AI Paper Daily | 2026-05-07

今日新增 16 篇论文（已去重，跳过 14 篇历史收录）数据来源：HuggingFace Daily Papers 覆盖方向：Audio LLM · LLM Training · AI Agents · 其他值得关注

🎙️ Audio LLM

1. MiniMind-O：开源 0.1B 语音原生全能模型

作者 Jingyao Gong

摘要 MiniMind-O 是基于 MiniMind 语言模型构建的开源 0.1B 级全能模型，同时接受文本、语音和图像输入，输出文本和流式语音。模型采用 MiniMind 主干作为 Thinker，独立的四层 Talker 由 MiniMind 模块构成。冻结的 SenseVoice-Small 和 SigLIP2 编码器分别提供语音和图像特征，通过轻量级 MLP 映射器注入到模态占位符位置。Talker 读取中间层 Thinker 状态和自回归八层 Mimi-code 缓冲区，说话人控制由专用 speaker token、右对齐参考 codec 提示和预计算 CAM++ 说话人嵌入实现。文章识别出小型全能模型的三个关键设计选择：中间层语义桥接、多模态序列格式和参数高效的八码本接口。

点评这是难得的 0.1B 级别语音-文本-图像全模态开源工作。虽然性能指标不算惊艳（voice-cloning similarity 约 0.6），但完整开放了代码、检查点和训练数据，对社区构建小型端侧全能模型非常有参考价值。三个 scale-critical 设计洞见——中间层桥接、序列格式、码本接口——是本文的核心贡献。

🔬 LLM Training

2. OpenSeeker-v2：仅用 SFT + 10.6K 数据打造 SOTA 搜索 Agent

论文 2605.04036 · PDF 链接 · ⬆️ 38

作者 Yuwen Du, Rui Ye, Shuo Tang 等

摘要 OpenSeeker-v2 证明简单的 SFT 方法配合高信息量、高难度轨迹数据，就能训练出前沿搜索 Agent。通过三项数据合成改进——扩大知识图谱规模以增强探索、扩展工具集以增加功能广度、严格的低步数过滤——仅用 10.6K 数据，30B 模型在 BrowseComp (46.0%)、BrowseComp-ZH (58.1%)、HLE (34.6%) 和 xbench (78.0%) 上全面超越使用 CPT+SFT+RL 重型流水线的通义 DeepResearch。这是首个由纯学术团队仅用 SFT 达到 SOTA 的搜索 Agent。

点评 “少即是多"的典型案例。工业界砸 CPT+SFT+RL 流水线，学术团队仅靠精心设计的 SFT 数据就赢了，说明数据质量 > 训练复杂度。三项数据合成策略都很实用，值得所有做 Agent 训练的团队学习。

3. 临床 LLM 的安全与精度遵循不同的扩展定律

论文 2605.04039 · PDF 链接

作者 Sebastian Wind, Tri-Thien Nguyen 等

摘要本文引入 SaFE-Scale 框架和 RadSaFE-200 基准，评估临床 LLM 安全性如何随模型规模、证据质量、检索策略等变化。关键发现：干净证据将准确率从 73.5% 提升至 94.1%，同时高风险错误从 12.0% 降至 2.6%；但标准 RAG 和 Agent RAG 未能复现这一安全特征——Agent RAG 虽提高了准确率，高风险错误和危险过度自信仍居高不下。最大上下文提示增加了延迟但未缩小安全差距。临床 LLM 的安全不是规模的自然副产品，而是由证据质量、检索设计和上下文构建塑造的部署属性。

点评这篇对 RAG 在医疗场景的反思非常重要。“加了 RAG 就更安全"是个危险的幻觉——不干净的证据反而可能制造新的风险。对做医疗 AI 和高安全场景 RAG 的团队是必读的警示。

4. OracleProto：可复现的 LLM 原生预测能力评测框架

论文 2605.03762 · PDF 链接

作者 Yiding Ma, Chengyun Ruan 等

摘要 OracleProto 提出了一个可复现的 LLM 预测能力评估框架，通过模型截止时间对齐的样本准入、工具级时间掩码、内容级泄漏检测、离散答案归一化和分层评分，将已解决事件重建为时间边界预测样本。在 FutureX-Past 数据集上实例化，对六个 LLM 的评测显示，OracleProto 将残余泄漏降到 1% 水平，比纯工具级时间过滤低一个数量级。

点评预测能力评测的核心痛点就是数据泄漏——模型可能早就"知道"了答案。OracleProto 的多层防泄漏设计把残余泄漏压到 1%，这个水准在评测方法论上很有价值。对做 LLM 预测/决策评估的人来说是重要参考。

5. 先学会记住，再谈遗忘：重访 LVLM 反学习基准的基础学习失败

论文 2605.03759 · PDF 链接

作者 JuneHyoung Kwon, MiHyeon Kim 等

摘要当前 LVLM 反学习基准使用虚构身份，但忽略了一个关键的一阶段失败：模型根本没有有效记住目标信息，使得后续反学习评估不可靠。本文诊断了"记忆不足"和"多跳诅咒"为根因，提出 ReMem 基准确保通过原则性数据扩展、推理感知 QA 对和多样视觉上下文实现稳健的基础学习，并引入 Exposure 指标从模型内部概率分布量化信息擦除深度。

点评反学习（unlearning）领域经常忽略一个前提：模型得先真正"学会"了才能谈"忘掉”。ReMem 的思路——先验证记忆充分性再评估遗忘——看似简单但影响深远。Exposure 指标也比传统的"输出是否包含"更深层。

6. GUI-SD：首个面向 GUI 定位的策略自蒸馏框架

论文 2605.00642 · PDF 链接 · ⬆️ 4

作者 Yan Zhang, Daiqing Wu 等

摘要 GUI-SD 首次将策略自蒸馏（OPSD）应用于 GUI 定位任务。通过目标边界框和高斯软掩码构建视觉丰富的教师特权上下文，以及基于熵引导的蒸馏策略——根据数字显著性和教师置信度自适应加权 token——在六个 GUI 定位基准上一致超越 GRPO 方法和朴素 OPSD，在准确率和训练效率上均有优势。

点评 GRPO 在 GUI Agent 领域很火，但它需要多次 rollout 计算量大。GUI-SD 用单次 rollout 的自蒸馏就达到了更好效果，而且针对 GUI 定位中数字（坐标）的特殊性做了熵引导加权，设计很到位。做 GUI Agent 训练的值得关注。

7. HeavySkill：将深度思考视为 Agent 框架的内在技能

论文 2605.02396 · PDF 链接 · ⬆️ 12

作者 Jianing Wang, Linsen Guo 等

摘要 HeavySkill 提出将深度思考（heavy thinking）不仅视为编排框架中的执行单元，更视为内化在模型参数中驱动编排器解决复杂任务的内在技能。识别出这种技能的两阶段流水线——并行推理后摘要——可以在任何 Agent 框架之下运作。实证表明这种内在技能一致优于 Best-of-N 策略，更强的 LLM 甚至能逼近 Pass@N 性能。通过 RL 可以进一步扩展深度思考的深度和宽度，为自演化 LLM 提供了路径。

点评这篇视角很有意思——与其堆 Agent 框架的复杂度，不如让模型本身内化"深度思考"作为一项技能。并行推理→摘要的两阶段模式简洁但有效，而且证明了 RL 可以进一步扩展这种能力。对"到底是框架重要还是模型重要"这个争论提供了一个有力论据。

8. APO：将漂移转化为约束——非平稳环境中的鲁棒推理对齐

论文 2510.04142 · PDF 链接

作者 Xiaoyu Yang, En Yu 等

摘要 APO 针对非平稳环境中多源推理对齐的挑战，将模型间分歧不视为噪声而视为动态负约束。两阶段协议：先通过监督引导将目标模型投射到源模型的能力联合中，再通过约束感知优化和多数负 Plackett-Luce 目标显式抑制漂移轨迹。在胸部 X 光解读上，7B 模型的鲁棒性超越了专有源模型。同时发布 CXR-MAX 基准，包含 170,982 条来自七个 MLLM 的推理轨迹。

点评多模型推理对齐中"源模型本身就在漂移"这个问题确实被低估了。APO 的思路是"用分歧作为约束而非噪声”——把漂移当成负样本信号，巧妙。跨模型对齐在联邦学习/模型融合场景都有应用潜力。

9. Healthcare AI GYM：医疗 Agent 的多轮强化学习训练场

论文 2605.02943 · PDF 链接

作者 Minbyul Jeong

摘要本文研究多轮 Agent RL 训练医疗 AI 的挑战。在覆盖 10 个临床领域、3.6K+ 任务、135 个工具和 828K 医学段落的 gym 环境上，发现 Agent 多轮结构退化为冗长的单轮独白——响应长度单调爆炸而工具使用频率同时衰减。提出 Turn-level Truncated On-Policy Distillation (TT-OPD)，用梯度无关的 EMA 教师提供每轮密集 KL 正则，在 18 个基准的 10 个上取得最佳性能，平均提升 +3.9 pp。

点评 “多轮 Agent 退化成单轮独白"这个现象太真实了——RL 训练的 Agent 容易学会"一次性把所有推理都写出来"而不是真正交互。TT-OPD 的逐轮蒸馏 + EMA 教师设计很实用，解决了 GRPO 的训练不稳定和响应爆炸问题。做 Agent RL 训练的必读。

🤖 AI Agents

10. ARIS：通过对抗性多 Agent 协作实现自主研究

论文 2605.03042 · PDF 链接 · ⬆️ 68

作者 Ruofeng Yang, Yongcan Li, Shuai Li

摘要 ARIS (Auto-Research-in-sleep) 是一个开源自主研究框架，核心设计是跨模型对抗协作：执行器模型推进研究进度，来自不同模型家族的审查器批评中间产物并要求修订。三层架构——执行层（65+ 可复用技能、MCP 集成、持久研究 wiki）、编排层（5 个端到端工作流）、保障层（三阶段声明验证、五轮科学编辑、数学证明检查和 PDF 视觉检查）。自我改进循环记录研究轨迹并提出框架改进建议。

点评热度最高的 Agent 论文之一（68 upvotes），核心卖点是"跨模型对抗”——用不同模型家族的模型互相审查，避免同模型的自我确认偏误。保障层的三阶段验证设计相当扎实。对做 AI for Science 和自动化研究的团队很有参考价值。

11. Workspace-Bench 1.0：大规模文件依赖下的 AI Agent 工作空间评测

论文 2605.03596 · PDF 链接 · ⬆️ 2

作者 Zirui Tang, Xuanhe Zhou 等

摘要 Workspace-Bench 评估 AI Agent 在真实工作空间任务上的表现，构建了 5 种工作者画像、74 种文件类型、20,476 个文件（最大 20GB）和 388 个任务，每个任务配有独立的文件依赖图，跨 7,399 个评分标准评估。最佳 Agent 仅达 68.7%，远低于人类的 80.7%，平均仅 47.4%。还提供 Lite 版本（100 任务）降低约 70% 评估成本。

点评终于有人认真做"工作空间"级别的 Agent 评测了。之前大多是在几个文件上做玩具任务，这里直接上 2 万个文件、20GB 规模。人类 80.7% vs Agent 68.7% 的差距说明现实工作空间任务远未解决。文件依赖图的设计是亮点。

12. PhysicianBench：真实 EHR 环境下的 LLM Agent 医生评测

论文 2605.02240 · PDF 链接 · ⬆️ 6

作者 Ruoqi Liu, Imran Q. Mohiuddin 等

摘要 PhysicianBench 在真实电子健康记录（EHR）环境中评估 LLM Agent 执行医生任务的能力。100 个长时域任务改编自真实的初级保健与专科医生间会诊案例，每个任务平均需要 27 次工具调用。涵盖 21 个专科，670 个结构化检查点。最佳模型仅 46% 成功率，开源模型最高仅 19%，揭示了当前 Agent 能力与真实临床工作流需求之间的巨大差距。

点评医疗 Agent 评测的标杆之作——不是问模型"这个病怎么治"，而是让它在真实 EHR 系统里完成从调阅病史到开处方到写文档的完整工作流。46% 的成功率说明 Agent 在真实临床场景还远不可用，但这个基准本身为未来进步提供了清晰标尺。

13. iWorld-Bench：交互式世界模型的统一评测基准

论文 2605.03941 · PDF 链接

作者 Jianjie Fang, Yingshan Lei 等

摘要 iWorld-Bench 是针对交互式世界模型的全维度评测基准，构建了 330K 视频片段的数据集，精选 2.1K 高质量样本，引入统一动作生成框架（Action Generation Framework）将不同交互模态的世界模型统一评估，设计 6 种任务类型生成 4.9K 测试样本，评测了 14 个代表性世界模型，揭示关键局限性。

点评世界模型评测一直很碎片——不同模型的交互接口不同，很难横向比较。iWorld-Bench 的统一动作生成框架解决了这个问题，让不同模态的世界模型可以在同一框架下评估。330K 视频数据集的规模也很可观。

📌 其他值得关注

14. 答案对了方向却错了：Transformer 为何数数失败及修复方案

论文 2605.03258 · PDF 链接

作者 Gabriel Garcia

摘要 LLM 在简单计数任务上经常失败。本文发现：线性探针能从中间层近乎完美地恢复正确计数（R² > 0.99），但编码计数的内部方向与数字 token 的输出头行近乎正交（|cos| ≤ 0.032）。模型"知道"答案但输出通道几何错位。仅更新输出头的数字行（36,864 参数）将受限数字预测从 60.7% 提升至 100%，但无法修复自回归生成；而注意力 Q/V 上的小 LoRA（7.67M 参数）在真正的贪婪自回归生成中达到 83.1%。计数失败的根因是几何读出瓶颈，而非内部表示失败。

点评 “模型知道但说不出来”——这个几何读出瓶颈的发现非常优雅。用探针证明信息存在、用余弦相似度证明方向错位、再用定向干预修复，逻辑链很漂亮。更深远的意义是：很多看似的"能力缺失"可能只是输出对齐问题，而非真正的理解失败。

15. PatRe：专利审查全流程生成基准

论文 2605.03571 · PDF 链接 · ⬆️ 4

作者 Qiyao Wang, Xinyi Chen 等

摘要 PatRe 是首个建模专利审查完整生命周期的基准，包括审查意见（Office Action）生成和申请人答辩。480 个真实案例，支持 oracle 和检索模拟评估设置，将专利审查重新定义为动态、多轮的论证与回应过程。实验揭示了专有模型与开源模型的差异，以及审查员分析和申请人答辩之间的任务不对称性。

点评把专利审查建模成多轮对抗过程——类似学术同行评审但更结构化——是个很聪明的想法。专利领域 LLM 应用潜力巨大但研究很少，PatRe 填补了空白。任务不对称性的发现（生成审查意见 vs 答辩难度不同）也有实用价值。

16. SurgTEMP：时序感知的腹腔镜手术视频问答

论文 2603.29962 · PDF 链接

作者 Shi Li, Vinkle Srivastav 等

摘要 SurgTEMP 提出查询引导的 token 选择模块构建分层视觉记忆（空间+时间记忆库），以及手术能力进展（SCP）训练方案，支持变长手术视频的有效建模。同时发布 CholeVidQA-32K 数据集，包含 32K 开放式 QA 对和 3,855 视频段（约 128 小时），按感知-评估-推理三级层次组织 11 个任务。在多模态和视频 LLM 上取得显著改进。

点评手术视频理解是 AI 医疗的重要方向，但时序建模一直薄弱——手术是过程，不是单帧。SurgTEMP 的分层记忆库（空间+时间）和 SCP 训练方案直接针对这个痛点。32K QA 对的大规模数据集本身也是重要贡献。

📊 今日统计

方向	数量	代表论文
Audio LLM	1	MiniMind-O
LLM Training	8	OpenSeeker-v2, HeavySkill, Healthcare AI GYM
AI Agents	4	ARIS, Workspace-Bench, PhysicianBench
其他值得关注	3	Transformer 计数失败, PatRe, SurgTEMP

今日关键趋势：

Agent RL 训练稳定性成为热点——Healthcare AI GYM、T²PO、GUI-SD 都在解决 RL 训练 Agent 时的退化/不稳定问题
基准成熟化——Workspace-Bench、PhysicianBench、iWorld-Bench 都在构建更真实、更复杂的评测环境，揭示当前模型的真实能力边界
数据 > 流水线——OpenSeeker-v2 用 10.6K 精选数据 + SFT 击败重工业流水线，再次印证数据质量的决定性作用

Generated by 爱弥斯 · 旅途愉快 ✨