AI Paper Daily | 2026-04-07

今日收录 10 篇新论文，涵盖 LLM Training、AI Agents、多模态等领域

🤖 AI Agents

1. Agentic-MME: 什么才是多模态智能真正需要的 Agent 能力？

论文: Agentic-MME: What Agentic Capability Really Brings to Multimodal Intelligence?

摘要: 多模态大语言模型（MLLMs）正从被动观察者演变为主动智能体，通过视觉扩展（调用视觉工具）和知识扩展（开放网络搜索）来解决问题。然而现有评估存在明显缺陷：缺乏灵活的工具集成、将视觉和搜索工具分开测试、仅评估最终答案而无法验证工具是否真正被调用。Agentic-MME 提出了一个过程验证基准，包含 418 个真实任务，覆盖 6 个领域、3 个难度等级，配备 2000+ 步骤检查点。实验显示最强模型 Gemini-3-Pro 整体准确率仅 56.3%，在 Level-3 任务上骤降至 23.0%。

亮点:

首个过程级验证的多模态 Agent 基准，而非仅看最终答案
引入"过度思考"指标评估效率
揭示当前模型在真实世界多模态 Agent 任务上的显著差距

2. Token Warping：让 MLLM 从邻近视角理解场景

论文: Token Warping Helps MLLMs Look from Nearby Viewpoints

摘要: MLLM 在视觉推理上表现出色，但对视角变化极其脆弱——像素级变形对深度误差高度敏感且会引入几何失真。本文借鉴心理意象理论，探索在 ViT-based MLLM 中使用 token 级变形（而非像素级）来实现视角转换。研究发现反向 token 变形（在目标视图上定义密集网格并检索对应源视图 token）更加稳定，能更好地保持语义连贯性。在 ViewBench 基准上一致优于所有基线方法。

亮点:

首次提出 token 级而非像素级的视角变换方法
基于心理意象理论的设计思路
在视角理解任务上显著优于传统方法

3. SimpleStream：流式视频理解的简单基线

论文: A Simple Baseline for Streaming Video Understanding

摘要: 近期流式视频理解方法越来越依赖复杂的记忆机制来处理长视频流。本文挑战这一趋势：一个简单的滑动窗口基线（仅将最近 N 帧输入现成 VLM）就能匹配甚至超越已发表的流式模型！SimpleStream 仅用 4 帧就在 OVO-Bench 上达到 67.7%、在 StreamingBench 上达到 80.59% 的平均准确率。研究还揭示了一个有趣的感知-记忆权衡：增加历史上下文可能提高召回，但往往会削弱实时感知能力。

亮点:

简单方法打败复杂模型，呼吁重新审视基准设计
揭示感知与记忆的权衡关系
为未来流式基准设计提供重要参考

4. PaveBench：道路损伤感知与交互式视觉语言分析基准

论文: PaveBench: A Versatile Benchmark for Pavement Distress Perception and Interactive Vision-Language Analysis

摘要: 道路状况评估对道路安全和维护至关重要，但现有研究局限于传统计算机视觉任务（分类、检测、分割）。现实应用需要更多：定量分析、解释和交互式决策支持。PaveBench 首次将感知与视觉语言分析连接，支持分类、检测、分割和 VQA 四大任务，引入 PaveVQA 数据集支持单轮、多轮和专家修正交互，覆盖识别、定位、定量估计和维护推理。

亮点:

首个连接感知与 VQA 的道路评估基准
支持多轮交互和专家修正
提供真实世界高速公路检测图像

5. The Latent Space：语言模型的底层计算范式

论文: The Latent Space: Foundation, Evolution, Mechanism, Ability, and Outlook

摘要: 潜在空间正迅速成为语言模型的原生计算基底。虽然现代系统通常通过显式 token 生成来理解，但越来越多的研究表明，许多关键内部过程在连续潜在空间中执行比人类可读的语言痕迹更自然。这篇综述从五个视角系统梳理了潜在空间：基础、演化、机制、能力与展望。从机制角度分析了架构、表示、计算和优化四条发展线；从能力角度展示了潜在空间如何支持推理、规划、建模、感知、记忆、协作和具身。

亮点:

首篇系统性的潜在空间综述
提供统一的理论框架
126 个 HF upvotes，社区高度关注

🧠 LLM Training

6. Self-Distilled RLVR：结合自蒸馏与强化学习的最优训练范式

论文: Self-Distilled RLVR

摘要: 在策略蒸馏（OPD）已成为 LLM 社区的流行训练范式，但纯自蒸馏会导致严重的信息泄漏和长期训练不稳定。本文找到自蒸馏的最佳定位点，提出 RLSD（带自蒸馏的 RLVR）：利用自蒸馏获得 token 级策略差异来确定细粒度更新幅度，同时继续使用 RLVR 从环境反馈（如答案正确性）获得可靠的更新方向。这使 RLSD 同时 harness RLVR 和 OPSD 的优势，实现更高的收敛上限和更优的训练稳定性。

亮点:

发现纯自蒸馏的信息泄漏问题并提出解决方案
结合环境反馈与自蒸馏优势
79 个 HF upvotes，社区反响热烈

7. Apriel-Reasoner：高效通用推理模型的 RL 后训练

论文: Apriel-Reasoner: RL Post-Training for General-Purpose and Efficient Reasoning

摘要: 使用可验证奖励的强化学习（RLVR）构建通用推理模型已被前沿开源模型广泛采用，但其训练配方很少公开。Apriel-Reasoner 在 15B 参数的 Apriel-Base 上，使用完全可复现的多领域 RL 后训练配方，覆盖数学、代码生成、指令遵循、逻辑谜题和函数调用五个领域。引入自适应领域采样机制和难度感知的长度惩罚，在严格 16K token 输出预算下训练，推理时可泛化到 32K token，在 AIME 2025、GPQA、MMLU-Pro 和 LiveCodeBench 上超越 Apriel-Base，同时推理轨迹缩短 30-50%。

亮点:

完全可复现的多领域 RL 后训练配方
自适应领域采样 + 难度感知长度惩罚
在相同准确率下降低 30-50% token 成本

8. CoME-VL：互补多编码器视觉语言学习

论文: CoME-VL: Scaling Complementary Multi-Encoder Vision-Language Learning

摘要: 近期视觉语言模型（VLMs）通常依赖单一视觉编码器（如 CLIP）。虽然对比编码器对跨模态对齐和检索有效，但自监督视觉编码器（如 DINO）往往捕获更丰富的密集语义，在识别和理解任务上展现更强鲁棒性。CoME-VL 提出模块化融合框架，集成对比训练编码器与自监督 DINO 编码器，通过熵引导多层聚合和 RoPE 增强交叉注意力进行表示级融合。在视觉理解任务上平均提升 4.9%，在定位任务上提升 5.4%。

亮点:

首次系统性地融合对比与自监督视觉编码器
熵引导聚合减少冗余
RefCOCO 检测达到 SOTA

9. VLM 的视觉不变性脆弱性研究

论文: Semantic Richness or Geometric Reasoning? The Fragility of VLM’s Visual Invariance

摘要: 本文研究 SOTA 视觉语言模型在基本几何变换下的根本脆弱性。虽然现代 VLM 在语义任务（识别规范朝向的物体、描述复杂场景）上表现出色，但在更基础的层面存在系统性失败：缺乏在简单旋转、缩放和恒等变换下可靠确定物体身份所需的空间不变性和等变性。在符号素描、自然照片和抽象艺术等多样视觉域上进行系统评估，揭示当前 VLM 中语义理解与空间推理之间的系统性差距。

亮点:

揭示 VLM 在几何变换下的系统性脆弱
跨多样视觉域的全面评估
为未来多模态系统的几何接地提供方向

10. Swift-SVD：低秩 LLM 压缩的理论最优与实践高效

论文: Swift-SVD: Theoretical Optimality Meets Practical Efficiency in Low-Rank LLM Compression

摘要: LLM 部署受限于静态权重和动态 KV cache 的内存与带宽需求。SVD 压缩是一种硬件友好的解决方案，但现有方法要么在重建误差上次优，要么理论最优但实践低效。Swift-SVD 提出激活感知的闭式压缩框架，同时保证理论最优、实践高效和数值稳定：增量聚合输出激活的协方差，在聚合后执行单次特征值分解，实现无需训练、快速且最优的逐层低秩近似。在 6 个 LLM 和 8 个数据集上超越 SOTA 基线，端到端压缩时间加速 3-70 倍。

亮点:

首个同时保证理论最优与实践高效的 SVD 压缩方法
无需训练，单次 SVD 即可完成
压缩速度提升 3-70 倍

📊 今日统计

领域	论文数
AI Agents	5
LLM Training	5

日报生成时间: 2026-04-07 00:00 UTC 数据来源: HuggingFace Papers