AI Paper Daily | 2026-03-26

收录方向：Audio LLM · LLM Training · AI Agents
数据来源：arXiv / HuggingFace Daily Papers / Papers With Code

📌 今日精选

1. SpecEyes: 通过推测性感知与规划加速 Agentic 多模态 LLM

arXiv: 2603.23483 | 机构: 未知 | 热度: 🔥 42 upvotes

核心贡献：

提出 SpecEyes，一个 agentic 级别的推测加速框架，打破级联感知 - 推理 - 工具调用的顺序瓶颈
关键洞察：轻量级、无工具的 MLLM 可作为推测规划器预测执行轨迹，实现昂贵工具链的提前终止
引入基于答案可分离性的认知门控机制，无需 oracle 标签即可进行自验证
设计异构并行漏斗，利用小模型的无状态并发性掩盖大模型的状态串行执行

结果： 在 V* Bench、HR-Bench、POPE 上实现 1.1-3.35x 加速，同时保持甚至提升准确率（最高 +6.7%）

链接： arXiv | GitHub

2. UniGRPO: 推理驱动视觉生成的统一策略优化

arXiv: 2603.23500 | 机构: ByteDance Seed | 热度: 🔥 29 upvotes

核心贡献：

提出 UniGRPO，一个针对交错生成的统一强化学习框架
将多模态生成过程建模为具有稀疏终端奖励的马尔可夫决策过程，使用 GRPO 联合优化文本和图像生成策略
对 FlowGRPO 的两项关键改进：
1. 消除 classifier-free guidance 以保持线性、无分支的 rollout
2. 用速度场上的 MSE 惩罚替代标准 latent KL 惩罚，更有效地缓解奖励黑客

结果： 通过推理显著提升图像生成质量，为完全交错模型的后训练提供稳健可扩展的基线

链接： arXiv

3. MinerU-Diffusion: 通过扩散解码将文档 OCR 重新定义为逆渲染

arXiv: 2603.22458 | 机构: OpenDataLab | 热度: 🔥🔥 110 upvotes

核心贡献：

从逆渲染视角重新审视文档 OCR，认为左到右因果生成是序列化的产物而非任务固有属性
提出 MinerU-Diffusion，统一的基于扩散的框架，用视觉条件下的并行扩散去噪替代自回归顺序解码
采用块级扩散解码器和不确定性驱动的课程学习策略，实现稳定训练和高效长序列推理

结果： 相比自回归基线实现高达 3.2x 的解码加速，在 Semantic Shuffle 基准上展现更强的视觉 OCR 能力

链接： arXiv | GitHub

4. Sparse but Critical: LLM 的 RLVR 微调中分布偏移的 Token 级分析

arXiv: 2603.22446 | 机构: Qwen | 热度: 4 upvotes

核心贡献：

对 RLVR 的分布效应进行系统性实证研究，聚焦 token 级机制
发现 RL 微调引发高度稀疏和靶向的变化，只有小部分 token 分布在基座和 RL 策略之间表现出有意义的分歧
通过交叉采样实验证明：仅插入少量 RL 采样的 token 即可逐步恢复 RL 性能增益，而注入少量基座 token 选择则会使性能崩溃至基座水平

意义： 为理解 RLVR 微调作为靶向精炼过程提供了细粒度的 token 级视角

链接： arXiv | 项目页

5. From Static Templates to Dynamic Runtime Graphs: LLM Agent 工作流优化综述

arXiv: 2603.22386 | 机构: IBM | 热度: 🔥 41 upvotes

核心贡献：

将 LLM 基于系统的工作流视为智能体计算图 (ACGs) 进行综述
按工作流结构确定时机组织文献：静态方法（部署前固定可复用脚手架）vs 动态方法（运行前/中为特定运行选择/生成/修订工作流）
沿三个维度组织 prior work：结构确定时机、优化部分、指导优化的评估信号
提出结构感知评估视角，补充下游任务指标与图级属性、执行成本、鲁棒性和结构变异

链接： arXiv | GitHub

6. AgentSLR: 用 Agentic AI 自动化流行病学系统文献综述

arXiv: 2603.22327 | 机构: University of Oxford | 热度: 8 upvotes

核心贡献：

研究 LLM 能否自动化完整的系统综述工作流（文章检索、筛选、数据提取、报告合成）
应用于 9 种 WHO 指定优先病原体的流行病学综述，与专家策划的真值验证
AgentSLR 实现与人类研究人员相当的性能，同时将综述时间从约 7 周缩短至 20 小时（58x 加速）

发现： SLR 性能更多由模型的独特能力驱动，而非模型大小或推理成本

链接： arXiv | 项目页 | GitHub

7. Ego2Web: 基于第一人称视频的 Web Agent 基准

arXiv: 2603.22529 | 机构: DeepMind | 热度: 3 upvotes

核心贡献：

首个连接第一人称视频感知与 Web Agent 执行的基准
解决现有 Web Agent 基准的关键局限：完全聚焦基于 Web 的交互和感知，缺乏对用户真实物理环境的 grounding
包含真实世界的第一人称视频录制与需要视觉理解、Web 任务规划和在线环境交互的 Web 任务配对
开发 Ego2WebJudge，一种新型 LLM-as-a-Judge 自动评估方法，与人类判断达成约 84% 一致性

结果： 现有 SOTA Agent 在 Ego2Web 上表现薄弱，所有任务类别均有显著提升空间

链接： arXiv | 项目页 | GitHub

8. Prompt Amplification and Zero-Shot Late Fusion in Audio-Language Models for Speech Emotion Recognition

arXiv: 2603.23057 | 机构: 未知 | 热度: -

核心贡献：

音频语言模型 (ALM) 在理解语音和非语音音频方面取得进展，但领域专用基础模型 (FM) 在封闭端语音处理任务（如语音情感识别 SER）上仍是最优
提出 ZS-Fuse，一种晚期融合方法，结合双编码器 ALM 的零样本情感估计与专用 FM
两项技术创新：
1. 使用简单的提示词集成处理情感模糊性和对提示选择的敏感性
2. 提出提示放大新技术，重复音频和文本查询以发现更强的零样本能力

结果： 在三个 SER 数据集上超越 WavLM-Large 等 SOTA 基线

链接： arXiv

9. The Interspeech 2026 Audio Encoder Capability Challenge for Large Audio Language Models

arXiv: 2603.22728 | 机构: 多机构联合 | 热度: -

核心贡献：

提出 Interspeech 2026 Audio Encoder Capability Challenge，专为评估和提升预训练音频编码器作为大型音频语言模型 (LALM) 前端模块的性能而设计
提供统一的生成式评估框架 XARES-LLM，在多样化的下游分类和生成任务套件上评估提交的编码器
通过解耦编码器开发与 LLM 微调，为可有效用于下一代多模态语言模型的通用音频表征建立标准化协议

链接： arXiv

10. PEARL: 个性化流式视频理解模型

arXiv: 2603.20422 | 机构: Peking University | 热度: 🔥 36 upvotes

核心贡献：

提出并正式定义新任务：个性化流式视频理解 (PSVU)
引入 PEARL-Bench，首个全面评估此挑战性设置的基准，包含 132 个独特视频和 2,173 个带精确时间戳的细粒度标注
提出 PEARL，即插即用、无需训练的强基线策略

结果： 在 8 个离线和在线模型上达到 SOTA 性能，应用于 3 种不同架构时均带来一致的 PSVU 提升

链接： arXiv | GitHub

📊 统计

方向	论文数
AI Agents	5
LLM Training	2
Audio LLM / SER	2
Video Understanding	1

今日收录： 10 篇
去重跳过： 0 篇（无与过去 7 天重复的 arxiv_id）

生成时间：2026-03-26 00:00 UTC

Cover image source: Pixiv