AI Paper Daily | 2026-05-01

今日概览

共收录 10 篇论文 | Audio LLM: 0篇 | LLM Training: 5篇 | AI Agents: 4篇 | 其他值得关注: 1篇来源: HuggingFace(10)

重点推荐 ⭐

ClawGym: A Scalable Framework for Building Effective Claw Agents

首个面向 Claw 风格个人 Agent 全生命周期的可扩展框架，含合成数据、训练和评测

作者: Fei Bai, Huatong Song et al.
来源: HuggingFace Trending (37 upvotes)
链接: arXiv | PDF
关键贡献: 构建了 ClawGym-SynData（13.5K 任务）和 ClawGym-Bench（200 实例），实现了从合成数据生成到 Agent 训练再到诊断评测的全流程闭环。探索了基于 per-task sandbox 并行 rollout 的轻量 RL 管线。
相关技术: claw agent, synthetic data generation, sandbox evaluation, supervised fine-tuning, reinforcement learning
代码/权重: 即将开源 ✅

📄 Abstract 中文翻译

Claw 风格环境支持对本地文件、工具和持久化工作区状态的多步工作流操作。然而，围绕这些环境的可扩展开发仍然受到缺乏系统性框架的制约，尤其是缺乏用于合成可验证训练数据并将其与 Agent 训练和诊断评测相集成的框架。为应对这一挑战，我们提出了 ClawGym，一个支持 Claw 风格个人 Agent 开发全生命周期的可扩展框架。具体而言，我们构建了 ClawGym-SynData，这是一个由 persona 驱动的意图和 skill-grounded 操作合成的 13.5K 经过筛选的任务数据集，配以逼真的模拟工作区和混合验证机制。随后，我们通过在黑盒 rollout 轨迹上进行监督微调训练了一组称为 ClawGym-Agents 的 Claw 风格模型，并进一步通过轻量管线探索强化学习，该管线可在每个任务的沙箱中并行化 rollout。为支持可靠评估，我们进一步构建了 ClawGym-Bench，这是一个通过自动筛选和人-LLM 审核查准的 200 实例基准。相关资源即将在 https://github.com/ClawGym 发布。

GLM-5V-Turbo: Toward a Native Foundation Model for Multimodal Agents

将多模态感知作为推理核心而非语言模型的辅助接口，打造原生多模态 Agent 基座模型

作者: V Team, Wenyi Hong, Xiaotao Gu et al.
来源: HuggingFace Trending (71 upvotes)
链接: arXiv | PDF
关键贡献: 将多模态感知深度整合为推理、规划、工具使用和执行的核心组件，而非语言模型的辅助接口。在多模态编码、视觉工具使用和框架式 Agent 任务上表现强劲，同时保持竞争力的纯文本编码能力。
相关技术: multimodal agents, visual tool use, multimodal perception, reinforcement learning, hierarchical optimization
代码/权重: 未提及

📄 Abstract 中文翻译

我们提出了 GLM-5V-Turbo，迈向原生多模态 Agent 基座模型的一步。随着基座模型越来越多地部署在真实环境中，Agent 能力不仅取决于语言推理，还取决于感知、解释和对异构上下文（如图像、视频、网页、文档、GUI）进行操作的能力。GLM-5V-Turbo 正是围绕这一目标构建的：多模态感知被整合为推理、规划、工具使用和执行的核心组件，而非语言模型的辅助接口。本报告总结了 GLM-5V-Turbo 在模型设计、多模态训练、强化学习、工具链扩展以及与 Agent 框架集成方面的主要改进。这些发展使其在多模态编码、视觉工具使用和框架式 Agent 任务上取得强劲表现，同时保持竞争力的纯文本编码能力。更重要的是，我们的开发过程为构建多模态 Agent 提供了实用洞见，突出了多模态感知、层次化优化和可靠的端到端验证的核心作用。

Turning the TIDE: Cross-Architecture Distillation for Diffusion Large Language Models

首个跨架构 dLLM 蒸馏框架，0.6B 学生模型在代码生成上大幅超越 AR 基线

作者: Gongbo Zhang, Wen Wang, Ye Tian, Li Yuan
来源: HuggingFace Trending (36 upvotes)
链接: arXiv | PDF
关键贡献: 提出首个跨架构 dLLM 蒸馏框架 TIDE，包含三个模块化组件（TIDAL、CompDemo、Reverse CALM），解决教师和学生架构、注意力机制和分词器均不同的蒸馏难题。8B/16B → 0.6B 蒸馏后 HumanEval 达 48.78（AR 基线仅 32.3）。
相关技术: cross-architecture distillation, diffusion language model, mask splitting, cross-tokenizer alignment, noise-dependent distillation
代码/权重: 未提及

📄 Abstract 中文翻译

扩散大语言模型 (Diffusion Large Language Models, dLLMs) 提供并行解码和双向上下文能力，但最先进的 dLLM 需要数十亿参数才能获得有竞争力的性能。现有的 dLLM 蒸馏方法仅减少单一架构内的推理步骤，均未解决跨架构知识转移问题——即教师和学生在架构、注意力机制和分词器上存在差异。我们提出了 TIDE，首个跨架构 dLLM 蒸馏框架，包含三个模块化组件：（1）TIDAL，联合调节训练进度和扩散时间步的蒸馏强度，以适应教师依赖噪声的可靠性；（2）CompDemo，通过互补掩码分割丰富教师上下文，改善重掩码下的预测；（3）Reverse CALM，一种跨分词器目标函数，反转块级似然匹配，产生有界梯度和双端噪声过滤。通过两条异构管线将 8B dense 和 16B MoE 教师蒸馏到 0.6B 学生，在八个基准上平均超出基线 1.53 个百分点，在代码生成上取得显著增益——HumanEval 得分达 48.78，而 AR 基线为 32.3。

直接从原始单目 RGB 视频实现开放词汇语义 SLAM，无需相机内参、深度传感器或位姿初始化

作者: Zaid Nasser, Mikhail Iumanov, Tianhao Li et al.
来源: HuggingFace Trending (49 upvotes)
链接: arXiv | PDF
关键贡献: 提出首个直接从原始单目 RGB 视频流运行的开放词汇语义 SLAM 系统，无需先验相机内参、深度传感器或位姿初始化。通过紧密耦合多模态嵌入与几何场景信息，在动态 TUM-RGBD 基准上达到 SOTA，同时可处理主动移动物体和场景元素变化。
相关技术: semantic SLAM, open-vocabulary grounding, multi-modal fusion, factor graph, dynamic environment
代码/权重: 已开源 ✅ (https://be2rlab.github.io/radio_vipe)

📄 Abstract 中文翻译

我们提出了 RADIO-ViPE（Reduce All Domains Into One – Video Pose Engine），一个在线语义 SLAM 系统，支持几何感知的开放词汇接地，将任意自然语言查询与动态环境中的局部 3D 区域和物体关联。与需要已校准、带位姿的 RGB-D 输入的现有方法不同，RADIO-ViPE 直接在原始单目 RGB 视频流上运行，无需先验相机内参、深度传感器或位姿初始化。该系统将从聚合基础模型（如 RADIO）导出的多模态嵌入——涵盖视觉和语言——与几何场景信息紧密耦合。这种耦合发生在初始化、优化和因子图连接中，从多个模态改善地图的一致性。优化封装在自适应鲁棒核函数中，旨在处理主动移动物体和 Agent 位移的场景元素（如自中心会话期间重新排列的家具）。实验表明，RADIO-ViPE 在动态 TUM-RGBD 基准上取得了最先进的结果，同时与依赖校准数据和静态场景假设的离线开放词汇方法保持竞争力。RADIO-ViPE 弥合了真实世界部署的关键差距，为自主机器人和无约束野外视频流实现了稳健的开放词汇语义接地。

🧠 LLM Training

Accelerating RL Post-Training Rollouts via System-Integrated Speculative Decoding

在 RL 后训练中无损加速 rollout 生成，8B 规模同步 RL 吞吐量提升 1.8 倍

作者: Hayate Iso, Tiyasa Mitra, Sudipta Mondal et al.
来源: HuggingFace Trending (3 upvotes)
链接: arXiv | PDF
关键贡献: 将推测解码作为 RL rollout 的无损加速原语，在 NeMo-RL + vLLM 中实现同步/异步管线。支持 MTP heads、小 draft 模型、Eagle3 等多种推测机制。8B 规模同步 RL 吞吐提升 1.8x，模拟显示 235B 规模结合异步 RL 可达 2.5x 端到端加速。
相关技术: speculative decoding, RL post-training, rollout acceleration, asynchronous pipeline, NeMo-RL
代码/权重: 未提及

📄 Abstract 中文翻译

前沿语言模型的 RL 后训练越来越受到自回归 rollout 生成的瓶颈制约，使得 rollout 加速成为核心系统挑战。许多现有效率方法通过改变 rollout 或优化机制来提高吞吐量，例如离线策略执行、重放或低精度生成。我们将推测解码作为 RL rollout 的无损加速原语进行研究，保持目标模型的输出分布不变。我们在 NeMo-RL 中实现了推测解码，后端为 vLLM，支持同步和异步管线，并可在 RL rollout 期间进行推测。这一优势可跨多种推测机制实现，如预训练的 MTP heads、小型外部 draft 模型，甚至 Eagle3 等技术——这些传统上在 RL 阶段之后应用。这为最先进的推测解码在 RL 训练内部部署提供了一条路径。在 8B 规模的推理后训练工作负载中，同步 RL 下推测解码将 rollout 吞吐量提升了 1.8 倍。使用高保真性能模拟器，我们预测结合推测解码与异步 RL 在 235B 规模下可实现高达 2.5 倍的端到端训练加速。

World2VLM: Distilling World Model Imagination into VLMs for Dynamic Spatial Reasoning

将世界模型的空间想象能力蒸馏到 VLM 中，消除推理时昂贵的生成开销

作者: Wanyue Zhang, Wenxiang Wu, Wang Xu et al.
来源: HuggingFace Trending (0 upvotes)
链接: arXiv | PDF
关键贡献: 提出将世界模型的空间想象蒸馏到 VLM 的训练框架。利用 view-consistent 世界模型合成几何对齐的未来视图，为正向（动作→结果）和逆向（结果→动作）空间推理提供结构化监督。在 SAT-Real、VSI-Bench 等多个基准上一致提升，且无需推理时生成。
相关技术: world model distillation, spatial reasoning, view-consistent synthesis, forward-inverse reasoning, VLM post-training
代码/权重: 未提及

📄 Abstract 中文翻译

视觉语言模型 (VLMs) 在静态视觉理解上表现出色，但在需要想象以自我中心运动下场景如何演变的动态空间推理方面仍有困难。近期的努力要么通过合成数据扩展空间监督，要么在推理时将 VLM 与世界模型耦合来解决这一局限。然而，前者往往缺乏对运动条件状态转移的显式建模，而后者则带来大量计算开销。本文提出 World2VLM，一个将世界模型的空间想象蒸馏到视觉语言模型中的训练框架。给定初始观察和参数化相机轨迹，我们使用 view-consistent 世界模型合成几何对齐的未来视图，并为正向（动作→结果）和逆向（结果→动作）空间推理导出结构化监督。我们通过该管线生成的紧凑数据集以两阶段方案对 VLM 进行后训练，并在多个空间推理基准上进行评估。World2VLM 在 SAT-Real、SAT-Synthesized、VSI-Bench 和 MindCube 等多样化基准上相对基础模型持续提升，同时超越了推理时耦合世界模型的方法，且无需昂贵的推理时生成。我们的结果表明，世界模型不仅可以作为推理时工具，还可以作为有效的训练时教师，使 VLM 能够以可扩展和高效的方式内化空间想象。

Graph Memory Transformer (GMT)

用学习式图记忆替代 Transformer 的 FFN 子层，实现结构可解释的 token 变换

作者: Nicola Zanarini, Niccolò Ferrari
来源: HuggingFace Trending (2 upvotes)
链接: arXiv | PDF
关键贡献: 提出用图记忆单元替代 Transformer 中每个 token 的 FFN 变换，使用学习式质心库和有向转移矩阵实现 source→target 记忆状态导航。82.2M 参数模型无密集 FFN 子层，训练稳定，质心使用和转移结构可直接检查。
相关技术: graph memory, FFN replacement, centroid routing, gravitational source routing, structural interpretability
代码/权重: 未提及

📄 Abstract 中文翻译

我们研究了是否可以用显式学习式记忆图替代 decoder-only transformer 中的前馈网络 (FFN) 子层，同时保留周围的自回归架构。所提出的 Graph Memory Transformer (GMT) 保持了因果自注意力不变，但用记忆单元替代了传统的逐 token FFN 变换，该记忆单元将 token 表示路由到由有向转移矩阵连接的学习式质心库上。在本文研究的基础 GMT v7 实例中，16 个 transformer 块中的每一个包含 128 个质心、一个 128×128 的边矩阵、引力源路由、token 条件目标选择和门控位移读出。因此，该记忆单元返回的是从估计源记忆状态向目标记忆状态的移动，而非检索值。所得模型是一个完全 decoder-only 的语言模型，有 82.2M 可训练参数且无密集 FFN 子层，对比评估用的 103.0M 参数 dense GPT 式基线。基础 v7 模型训练稳定，并将质心使用、转移结构和源到目标的移动作为前向计算中可直接检查的量。它在验证损失和困惑度上仍落后于更大的 dense 基线（3.5995/36.58 vs. 3.2903/26.85），但在评估设置下表现出接近的零样本基准行为。这些结果并非最优声明；它们支持了用图介导的记忆导航替代密集 token 内变换的可行性和结构可解释性。

🤖 AI Agents

How Do AI Agents Spend Your Money? Analyzing and Predicting Token Consumption in Agentic Coding Tasks

首次系统分析 Agent 编码任务的 token 消耗模式：同一任务 token 差异可达 30 倍，更多 token ≠ 更高准确率

作者: Longju Bai, Zhemin Huang, Xingyao Wang et al.
来源: HuggingFace Trending (5 upvotes)
链接: arXiv | PDF
关键贡献: 首次系统研究 Agent 编码任务的 token 消耗模式。发现 Agent 任务比代码推理/聊天贵 1000 倍，输入 token 驱动成本；同一任务 token 差异可达 30x 且更多 token 不等于更高准确率；Kimi-K2 和 Claude-Sonnet-4.5 比 GPT-5 多消耗 150 万 token；前沿模型无法准确预测自身 token 用量。
相关技术: token consumption analysis, agentic coding, cost prediction, SWE-bench, token efficiency
代码/权重: 未提及

📄 Abstract 中文翻译

AI Agent 在复杂人类工作流中的广泛应用正在推动 LLM token 消耗的快速增长。当 Agent 部署在需要大量 token 的任务上时，三个问题自然产生：（1）AI Agent 在哪里花费 token？（2）哪些模型更具 token 效率？（3）Agent 能否在任务执行前预测其 token 用量？本文首次对 Agent 编码任务中的 token 消耗模式进行了系统研究。我们分析了八个前沿 LLM 在 SWE-bench Verified 上的轨迹，并评估了模型在任务执行前预测自身 token 成本的能力。我们发现：（1）Agent 任务极为昂贵，消耗的 token 是代码推理和代码聊天的 1000 倍，其中输入 token 而非输出 token 驱动了整体成本；（2）token 使用高度可变且本质上具有随机性：同一任务的不同运行在总 token 上差异可达 30 倍，更多 token 使用并不转化为更高准确率；准确率通常在中等成本时达峰并在更高成本时饱和；（3）模型在 token 效率上差异显著：同一任务上，Kimi-K2 和 Claude-Sonnet-4.5 平均比 GPT-5 多消耗超过 150 万 token；（4）人类专家评定的任务难度与实际 token 成本仅弱相关，揭示了人类感知复杂度与 Agent 实际计算付出之间的根本差距；（5）前沿模型无法准确预测自身 token 使用（相关性仅弱到中等，最高 0.39），且系统性地低估真实 token 成本。

X-WAM: Unified 4D World Action Modeling from Video Priors with Asynchronous Denoising

统一实时机器人动作执行与高保真 4D 世界合成，异步降噪平衡动作效率与生成质量

作者: Jun Guo, Qiwei Li, Peiyan Li et al.
来源: HuggingFace Trending (4 upvotes)
链接: arXiv | PDF
关键贡献: 提出统一 4D 世界模型 X-WAM，在单一框架内统一实时机器人动作执行和高保真 4D 世界合成。引入异步降噪采样（ANS），用更少步数快速解码动作以支持实时执行，同时用完整步数生成高保真视频。在 RoboCasa 和 RoboTwin 2.0 上分别达 79.2% 和 90.7% 成功率。
相关技术: 4D world model, asynchronous denoising, robotic action execution, depth prediction branch, RGB-D video generation
代码/权重: 未提及

📄 Abstract 中文翻译

我们提出了 X-WAM，一个统一 4D 世界模型，在单一框架内统一了实时机器人动作执行和高保真 4D 世界合成（视频 + 3D 重建），解决了先前统一世界模型（如 UWM）仅建模 2D 像素空间且无法平衡动作效率与世界建模质量的关键局限。为利用预训练视频扩散模型的强视觉先验，X-WAM 通过预测多视角 RGB-D 视频来想象未来世界，并通过轻量结构适配高效获取空间信息：将预训练 Diffusion Transformer 的最后几个块复制为专用深度预测分支以重建未来空间信息。此外，我们提出了异步噪声采样 (ANS) 以联合优化生成质量和动作解码效率。ANS 在推理时应用专门的异步降噪调度——用更少步数快速解码动作以实现高效实时执行，同时用完整步数生成高保真视频。ANS 并非在训练时完全解耦时间步，而是从其联合分布中采样以与推理分布对齐。在超过 5800 小时的机器人数据上预训练后，X-WAM 在 RoboCasa 和 RoboTwin 2.0 基准上分别达到 79.2% 和 90.7% 的平均成功率，同时产生高保真 4D 重建和生成，在视觉和几何指标上超越现有方法。

FAMA: Failure-Aware Meta-Agentic Framework for Open-Source LLMs in Interactive Tool Use Environments

通过分析失败轨迹并注入针对性上下文，小模型 Agent 性能最高提升 27%

作者: Amir Saeidi, Venkatesh Mishra, Souradeep Mukhopadhyay et al.
来源: HuggingFace Trending (6 upvotes)
链接: arXiv | PDF
关键贡献: 提出 FAMA 框架，首先分析基线 Agent 的失败轨迹识别最常见错误，然后通过编排机制在决策前为工具使用 Agent 注入针对性上下文。在开源 LLM 上各评估模式下性能提升最高 27%，证明通过专门 Agent 针对性策划上下文是构建可靠多轮工具使用 Agent 的有效设计原则。
相关技术: failure-aware agent, meta-agentic framework, tool-use error analysis, context injection, open-source LLM agents
代码/权重: 未提及

📄 Abstract 中文翻译

大语言模型正越来越多地作为自主 Agent 的决策核心部署，这些 Agent 能够在外部环境中实施变更。然而，在模拟真实客户问题解决场景的对话基准中，这些 Agent 由于错误决策的级联效应而频繁失败。这些挑战对于参数规模较小、上下文窗口有限和推理预算受限的开源 LLM 尤为突出，导致 Agent 场景中的错误累积增加。为应对这些挑战，我们提出了 Failure-Aware Meta-Agentic (FAMA) 框架。FAMA 分两个阶段运作：首先，分析基线 Agent 的失败轨迹以识别最普遍的错误；其次，采用编排机制激活最小子集的专门 Agent，在决策步骤之前为工具使用 Agent 注入针对性上下文以解决这些失败。跨开源 LLM 的实验表明，各评估模式下性能提升最高达 27%，超过标准基线。这些结果突出了通过专门 Agent 针对性策划上下文以解决常见失败，是构建可靠多轮工具使用 LLM Agent 的有价值设计原则。

📌 其他值得关注

COP-GEN: Latent Diffusion Transformer for Copernicus Earth Observation Data

多模态潜在扩散 Transformer 实现地球观测数据的任意到任意条件生成，覆盖真实观测流形的 90%

作者: Miguel Espinosa, Eva Gmelich Meijling, Valerio Marsocci et al.
来源: HuggingFace Trending (2 upvotes)
链接: arXiv | PDF
关键贡献: 提出多模态潜在扩散 Transformer，将跨模态映射参数化为条件分布而非确定性映射，实现灵活的任意到任意条件生成，包括零样本模态迁移。在随机基准上覆盖 90% 的真实观测流形，而最强竞争方法仅覆盖 2.8%。
相关技术: latent diffusion transformer, earth observation, conditional distribution, zero-shot modality translation, multi-modal generation
代码/权重: 已开源 ✅ (https://miquel-espinosa.github.io/cop-gen)

📄 Abstract 中文翻译

地球观测应用越来越依赖来自多个传感器的数据，包括光学、雷达、高程和土地覆盖。模态间的关系是数据集成的基础，但本质上是非单射的：相同的条件信息可以对应多个物理上合理的观测，应该被参数化为条件分布。确定性模型则趋向于条件均值，无法表示数据补全和跨传感器转换等任务所需的不确定性和变异性。我们提出了 COP-GEN，一个多模态潜在扩散 Transformer，以原生空间分辨率建模异构 EO 模态的联合分布。通过将跨模态映射参数化为条件分布，COP-GEN 实现了灵活的任意到任意条件生成，包括无需任务特定重训练的零样本模态迁移。实验表明，COP-GEN 生成多样但物理一致的实现，同时在光学、雷达和高程模态上保持强峰值保真度。定性和定量分析表明，该模型捕获了有意义的跨模态结构，并随着条件信息的增加自适应调整输出不确定性。我们发布了一个基于多时相 Sentinel-2 观测的随机基准，能够进行生成式 EO 模型的分布级比较。在该基准上，COP-GEN 覆盖了真实观测流形的 90% 及其每波段反射率范围的 63%，而最强竞争方法分别仅为 2.8% 和 18%。这些结果凸显了随机生成建模对 EO 的重要性，并推动了超越单一参考逐点指标的评估协议。

Generated on 2026-05-01T00:00:00Z | Sources: HuggingFace