AI Paper Daily | 2026-04-02

今日概览

共收录 10 篇论文 | Audio LLM: 1篇 | LLM Training: 4篇 | AI Agents: 5篇来源: HuggingFace(10)

重点推荐 ⭐

CARLA-Air: Fly Drones Inside a CARLA World – A Unified Infrastructure for Air-Ground Embodied Intelligence

将 CARLA 驾驶仿真器与 AirSim 无人机仿真统一为单进程空地协同仿真平台

作者: Tianle Zeng et al.
来源: HuggingFace Trending (228 upvotes)
链接: arXiv | PDF
关键贡献: 在单个 Unreal Engine 进程中统一了高保真城市驾驶和物理精确的多旋翼飞行仿真，解决了现有开源平台空地仿真割裂的问题。平台支持空地协同、具身导航、视觉-语言动作、多模态感知等工作负载，并继承了已归档的 AirSim 的航空能力使其持续演进。
相关技术: air-ground co-simulation, Unreal Engine, multirotor dynamics, ROS 2, embodied navigation
代码/权重: 已开源 ✅

📄 Abstract 中文翻译

低空经济、具身智能和空地协同系统的融合催生了对仿真基础设施的日益增长的需求，这种基础设施需要能够在单一物理一致的环境中联合建模空中和地面智能体。现有的开源平台仍然是领域隔离的：驾驶仿真器缺乏空中动力学，而多旋翼仿真器缺乏逼真的地面场景。基于桥接的联合仿真引入了同步开销，无法保证严格的时空一致性。

我们提出了 CARLA-Air，一个开源基础设施，在单个 Unreal Engine 进程中统一了高保真城市驾驶和物理精确的多旋翼飞行。该平台保留了 CARLA 和 AirSim 的原生 Python API 和 ROS 2 接口，实现了零修改的代码复用。在共享的物理时钟和渲染管线中，CARLA-Air 提供了具有规则合规交通、社会感知行人和气动一致的无人机动力学的照片级真实环境，在每个时钟周期同步捕获所有平台上多达 18 种传感器模态。该平台支持代表性的空地具身智能工作负载，涵盖协同、具身导航和视觉-语言动作、多模态感知和数据集构建，以及基于强化学习的策略训练。可扩展的资产管线允许将自定义机器人平台集成到共享世界中。通过继承 AirSim 的空中能力——其上游开发已被归档——CARLA-Air 确保这个被广泛采用的飞行栈在现代基础设施中继续发展。

已发布预编译二进制文件和完整源代码：https://github.com/louiszengCN/CarlaAir

CutClaw: Agentic Hours-Long Video Editing via Music Synchronization

多智能体框架自动将数小时原始素材剪辑为音乐同步的短视频

作者: Shifang Zhao et al.
来源: HuggingFace Trending (28 upvotes)
链接: arXiv | PDF
关键贡献: 提出了一个自主多智能体框架，利用多个多模态语言模型（MLLMs）作为智能体系统，将数小时的原始素材编辑为音乐同步的短视频。采用层级多模态分解捕获视觉和音频素材的细粒度细节和全局结构，通过 Playwriter Agent 编排叙事流、Editor 和 Reviewer Agent 协同优化最终剪辑。
相关技术: multi-agent video editing, music synchronization, hierarchical multimodal decomposition, MLLM agents, narrative orchestration
代码/权重: 已开源 ✅

📄 Abstract 中文翻译

在当前社交媒体中，将视频内容与音频对齐进行编辑构成了一种数字化的人类艺术创作。然而，手动视频编辑的耗时和重复性长期以来一直是电影制作人和专业内容创作者面临的挑战。在本文中，我们介绍了 CutClaw，一个自主多智能体框架，旨在利用多个多模态语言模型（MLLMs）作为智能体系统，将数小时的原始素材编辑为有意义的短视频。它生成具有同步音乐、遵循指令且视觉吸引力强的视频。具体来说，我们的方法首先采用层级多模态分解，捕获视觉和音频素材中的细粒度细节和全局结构。然后，为确保叙事一致性，Playwriter Agent 编排整个叙事流程并构建长期叙事结构，将视觉场景锚定到音乐转换点。最后，为构建短编辑视频，Editor 和 Reviewer Agent 基于严格的美学和语义标准协同优化最终剪辑，选择细粒度的视觉内容。我们进行了详细实验，证明 CutClaw 在生成高质量、节奏对齐的视频方面显著优于最先进的基线方法。代码可在 https://github.com/GVCLab/CutClaw 获取。

Unify-Agent: A Unified Multimodal Agent for World-Grounded Image Synthesis

将图像生成重构为智能体流水线，通过检索真实世界知识增强长尾概念生成

作者: Shuang Chen et al.
来源: HuggingFace Trending (33 upvotes)
链接: arXiv | PDF
关键贡献: 将图像生成重构为包含提示理解、多模态证据搜索、接地重描述和最终合成的智能体流水线，解决了统一多模态模型在长尾和知识密集概念上的生成难题。构建了 143K 高质量智能体轨迹数据集，并提出 FactIP 基准涵盖 12 类文化显著和长尾事实概念。
相关技术: world-grounded image synthesis, agentic generation pipeline, multimodal evidence retrieval, long-tail factual concepts, unified multimodal model
代码/权重: 未提及

📄 Abstract 中文翻译

统一多模态模型为理解多样且复杂的现实世界知识并生成高质量图像提供了自然且有前景的架构。然而，它们仍然主要依赖冻结的参数化知识，这使得它们在涉及长尾和知识密集概念的真实世界图像生成中表现不佳。受智能体在真实世界任务中广泛成功的启发，我们探索了智能体建模来解决这一局限性。具体而言，我们提出了 Unify-Agent，一个用于世界接地图像合成的统一多模态智能体，它将图像生成重构为由提示理解、多模态证据搜索、接地重描述和最终合成组成的智能体流水线。为训练我们的模型，我们构建了定制的多模态数据管线，并策划了 143K 高质量的世界接地图像合成智能体轨迹，实现了对完整智能体生成过程的有效监督。我们进一步引入了 FactIP，一个涵盖 12 类文化显著和长尾事实概念的基准，明确要求外部知识接地。大量实验表明，我们提出的 Unify-Agent 在多样的基准和真实世界生成任务中大幅超越其基础统一模型，同时接近最强闭源模型的世界知识能力。作为基于智能体建模的世界接地图像合成的早期探索，我们的工作突出了紧密耦合推理、搜索和生成对于可靠的开放世界智能体图像合成的价值。

Think Anywhere in Code Generation

让 LLM 在代码生成过程中任意位置按需触发推理，而非仅在开头思考

作者: Xue Jiang et al.
来源: HuggingFace Trending (12 upvotes)
链接: arXiv | PDF
关键贡献: 提出 Think-Anywhere 机制，使 LLM 能在代码生成过程中任意 token 位置按需调用推理，克服了传统"先想后答"模式在代码实现中复杂度逐步暴露时的不足。通过冷启动训练学习推理模式，再用基于结果的 RL 奖励驱动模型自主探索何时何地触发推理，在 LeetCode、LiveCodeBench 等基准上达到 SOTA。
相关技术: on-demand reasoning, code generation, reinforcement learning, high-entropy position, cold-start training
代码/权重: 未提及

📄 Abstract 中文翻译

近期推理型大语言模型（LLMs）的进展主要依赖于前置思考，即在最终答案之前进行推理。然而，这种方法在代码生成中存在关键局限性，因为前置思考往往不够充分——问题的全部复杂性只有在代码实现过程中才会逐步显现。此外，它无法在代码生成过程中难度显著变化的各个阶段自适应地分配推理努力。在本文中，我们提出 Think-Anywhere，一种新颖的推理机制，使 LLM 能在代码生成过程中任意 token 位置按需调用思考。我们通过冷启动训练首先教会 LLM 模仿推理模式，然后利用基于结果的强化学习奖励驱动模型自主探索何时何地调用推理。在四个主流代码生成基准（LeetCode、LiveCodeBench、HumanEval 和 MBPP）上的大量实验表明，Think-Anywhere 在现有推理方法和近期后训练方法之上达到了最先进的性能，同时展现了跨多种 LLM 的一致泛化能力。我们的分析进一步揭示，Think-Anywhere 使模型能在高熵位置自适应地调用推理，提供了增强的可解释性。

🔊 Audio LLM

CutClaw: Agentic Hours-Long Video Editing via Music Synchronization

（见重点推荐）

🧠 LLM Training

Think Anywhere in Code Generation

（见重点推荐）

FlowPIE: Test-Time Scientific Idea Evolution with Flow-Guided Literature Exploration

将文献探索与想法生成建模为协同演化过程，利用 GFlowNet 引导的 MCTS 实现测试时科学创意进化

作者: Qiyao Wang et al.
来源: HuggingFace Trending (11 upvotes)
链接: arXiv | PDF
关键贡献: 提出 FlowPIE 框架，将文献探索和想法生成视为协同演化过程而非静态的"检索后生成"。使用受 GFlowNets 启发的流引导蒙特卡罗树搜索（MCTS）扩展文献轨迹，通过基于 LLM 的生成奖励模型（GRM）评估想法质量并引导自适应检索，再通过选择、交叉和变异进行测试时想法进化，有效缓解了过度依赖参数知识和静态文献导致的信息茧房。
相关技术: GFlowNet-guided MCTS, scientific idea generation, test-time evolution, generative reward model, literature trajectory expansion
代码/权重: 未提及

📄 Abstract 中文翻译

科学创意生成（SIG）对于 AI 驱动的自主研究至关重要，然而现有方法通常受限于静态的"检索后生成"范式，导致创意同质化且发散性不足。在本工作中，我们提出 FlowPIE，一个紧密耦合的检索-生成框架，将文献探索和创意生成视为协同演化的过程。FlowPIE 通过受 GFlowNets 启发的流引导蒙特卡罗树搜索（MCTS）扩展文献轨迹，使用基于 LLM 的生成奖励模型（GRM）评估当前创意质量作为监督信号，引导自适应检索并构建多样化、高质量的初始种群。基于该种群，FlowPIE 将创意生成建模为测试时创意进化过程，应用选择、交叉和变异操作，结合隔离岛范式和基于 GRM 的适应度计算，融入跨领域知识。它有效缓解了过度依赖参数知识和静态文献导致的信息茧房。大量评估表明，FlowPIE 与强 LLM 基础和智能体基础框架相比，始终产生更高新颖性、可行性和多样性的创意，同时支持测试时的奖励缩放。

PRISM: A Multi-View Multi-Capability Retail Video Dataset for Embodied Vision-Language Models

面向零售场景具身 VLM 的 270K 样本多视角视频微调数据集

作者: Amirreza Rouhi et al.
来源: HuggingFace Trending
链接: arXiv | PDF
关键贡献: 构建了一个 270K 样本的多视角视频监督微调语料库，基于空间知识、时间/物理知识和具身动作知识的三维知识本体。涵盖 20+ 能力探针，覆盖自我中心、外部中心和 360° 视角，横跨五个超市场景。微调后在所有探针上将错误率降低 66.6%，具身动作理解准确率提升 36.4%。
相关技术: embodied VLM, multi-view video SFT, retail environment, spatial-temporal knowledge ontology, egocentric perception
代码/权重: 未提及

📄 Abstract 中文翻译

最先进的物理 AI 模型的通用视觉理解与结构化真实世界部署环境的专业感知需求之间存在关键差距。我们提出 PRISM，一个面向真实世界零售环境中具身视觉-语言模型（VLMs）的 270K 样本多视角视频监督微调（SFT）语料库。PRISM 源于一个简单的观察——物理 AI 系统失败不是因为视觉识别不好，而是因为它们对空间、物理动态和具身动作的理解不够充分，无法在世界中可靠运行。为此，PRISM 基于一个涵盖空间知识、时间和物理知识以及具身动作知识的新颖三维知识本体。它覆盖了四个评估维度（具身推理、常识、空间感知和直觉物理）的 20+ 能力探针。据我们所知，PRISM 是第一个在单一真实世界部署领域中实例化所有三个知识维度的数据集。该语料库从五个超市场景中捕获自我中心、外部中心和 360° 视角的数据，包含开放式、思维链和多项选择监督。以 4 fps 计算，PRISM 跨越约 1180 万个视频帧和约 7.3 亿个 token，使其跻身最大的领域特定视频 SFT 语料库之列。在 PRISM 上微调将所有 20+ 探针的错误率比预训练基线降低了 66.6%，在具身动作理解方面准确率提升了 36.4%。我们的结果表明，本体结构化的领域特定 SFT 可以有意义地增强面向真实世界场景的具身 VLM。PRISM 数据集和更多细节可在 https://dreamvu.ai/prism 获取。

MMFace-DiT: A Dual-Stream Diffusion Transformer for High-Fidelity Multimodal Face Generation

双流 Diffusion Transformer 统一文本和空间先验实现高保真可控人脸生成

作者: Bharath Krishnamurthy et al.
来源: HuggingFace Trending (5 upvotes)
链接: arXiv | PDF
关键贡献: 提出统一的双流 Diffusion Transformer 架构，通过共享旋转位置编码（RoPE）注意力机制并行处理空间（mask/sketch）和语义（文本）token 并深度融合，防止模态主导并确保空间-语义一致性。新颖的 Modality Embedder 使单一模型能动态适应不同空间条件而无需重训练。在视觉保真度和提示对齐方面比六个 SOTA 方法提升 40%。
相关技术: dual-stream diffusion transformer, RoPE attention, multimodal face generation, spatial-semantic fusion, modality embedder
代码/权重: 已开源 ✅

📄 Abstract 中文翻译

近期多模态人脸生成模型通过使用分割掩码、素描或边缘图等空间先验来增强基于文本的条件，解决了文本到图像扩散模型的空间控制局限性。这种多模态融合实现了与高层语义意图和低层结构布局对齐的可控合成。然而，大多数现有方法通常通过附加辅助控制模块或拼接独立的单模态网络来扩展预训练的文本到图像管线。这些临时设计继承了架构约束，重复参数，并且在模态冲突或潜在空间不匹配时常常失败，限制了它们在语义和空间域之间进行协同融合的能力。我们引入 MMFace-DiT，一种为协同多模态人脸合成设计的统一双流 Diffusion Transformer。其核心创新在于双流 Transformer 块，并行处理空间（mask/sketch）和语义（文本）token，通过共享的旋转位置编码（RoPE）注意力机制进行深度融合。这种设计防止了模态主导，确保对文本和结构先验的强附着，为可控人脸生成实现了前所未有的空间-语义一致性。此外，新颖的 Modality Embedder 使单一内聚模型能动态适应不同的空间条件而无需重训练。MMFace-DiT 在视觉保真度和提示对齐方面比六个最先进的多模态人脸生成模型提升了 40%，为端到端可控生成建模建立了灵活的新范式。代码和数据集可在我们的项目页面获取：https://vcbsl.github.io/MMFace-DiT/

🤖 AI Agents

Unify-Agent: A Unified Multimodal Agent for World-Grounded Image Synthesis

（见重点推荐）

ATP-Bench: Towards Agentic Tool Planning for MLLM Interleaved Generation

评估 MLLM 在交错文图生成中自主决定何时、何处调用哪个工具的智能体规划能力

作者: Yinuo Liu et al.
来源: HuggingFace Trending
链接: arXiv | PDF
关键贡献: 提出 ATP-Bench 基准，包含 7,702 个 QA 对（含 1,592 个 VQA 对），覆盖 8 个类别和 25 种视觉关键意图，系统评估 MLLM 的智能体工具规划能力。提出多智能体 MLLM-as-a-Judge（MAM）评估系统，无需参考答案即可评估工具调用精度、遗漏的工具使用机会和整体响应质量。对 10 个 SOTA MLLM 的实验揭示了模型在连贯交错规划和工具使用行为上的显著不足。
相关技术: agentic tool planning, interleaved text-image generation, MLLM-as-a-Judge, tool-call precision, visual-critical intent
代码/权重: 已开源 ✅

📄 Abstract 中文翻译

交错的文本和图像生成代表了多模态大语言模型（MLLMs）的重要前沿，提供了一种更直观的方式来传达复杂信息。当前范式依赖于图像生成或检索增强，但它们通常将两者视为互斥的路径，未能统一事实性与创造性。我们认为该领域的下一个里程碑是智能体工具规划（Agentic Tool Planning），即模型作为中央控制器，自主决定何时、何处以及调用哪些工具来为视觉关键查询生成交错响应。为系统评估该范式，我们引入 ATP-Bench，一个包含 7,702 个 QA 对（含 1,592 个 VQA 对）的新基准，覆盖 8 个类别和 25 种视觉关键意图，具有人工验证的查询和标准答案。此外，为了独立于端到端执行和变化的工具后端来评估智能体规划，我们提出多智能体 MLLM-as-a-Judge（MAM）系统。MAM 评估工具调用精度、识别遗漏的工具使用机会，并在不需要参考答案的情况下评估整体响应质量。我们对 10 个最先进 MLLM 的大量实验揭示，模型在连贯的交错规划方面存在困难，并在工具使用行为上表现出显著差异，突出了改进的巨大空间，并为推进交错生成提供了可操作的指导。数据集和代码可在 https://github.com/Qwen-Applications/ATP-Bench 获取。

AEC-Bench: A Multimodal Benchmark for Agentic Systems in Architecture, Engineering, and Construction

面向建筑工程领域智能体系统的多模态基准，覆盖图纸理解、跨图推理和项目级协调

作者: Harsh Mankodiya et al.
来源: HuggingFace Trending
链接: arXiv | PDF
关键贡献: 发布了面向建筑、工程和施工（AEC）领域的多模态基准，涵盖图纸理解、跨图纸推理和施工项目级协调任务。通过基准识别出了在不同基础模型中一致提升性能的工具和 harness 设计技术（如 Claude Code 和 Codex），为领域特定智能体评估提供了标准化框架。
相关技术: AEC domain benchmark, cross-sheet reasoning, construction coordination, agent harness design, multimodal drawing understanding
代码/权重: 已开源 ✅

📄 Abstract 中文翻译

AEC-Bench 是一个用于评估智能体系统在建筑、工程和施工（AEC）领域真实世界任务上表现的多模态基准。该基准涵盖需要图纸理解、跨图纸推理和施工项目级协调的任务。本报告描述了基准动机、数据集分类、评估协议，以及跨多个领域特定基础模型 harness 的基线结果。我们使用 AEC-Bench 识别出了在不同基础模型各自的基础 harness 中一致提升性能的工具和 harness 设计技术，如 Claude Code 和 Codex。我们在 Apache 2 许可下公开发布基准数据集、智能体 harness 和评估代码，以实现完全可复现性：https://github.com/nomic-ai/aec-bench

Meta-Harness: End-to-End Optimization of Model Harnesses

自动搜索优化 LLM 应用的 harness 代码，在文本分类、数学推理和编程任务上超越手工设计

作者: Yoonho Lee et al.
来源: HuggingFace Trending (2 upvotes)
链接: arXiv | PDF
关键贡献: LLM 系统的性能不仅取决于模型权重，还取决于其 harness（决定存储、检索和呈现信息的代码）。Meta-Harness 引入外循环系统搜索 LLM 应用的 harness 代码，使用智能体提议者访问源代码、分数和执行轨迹。在在线文本分类上比 SOTA 上下文管理系统提升 7.7 分且使用 4 倍更少的上下文 token；在 200 道 IMO 级别问题上平均提升 4.7 分。
相关技术: harness code optimization, outer-loop search, agentic proposer, context management, execution trace analysis
代码/权重: 未提及

📄 Abstract 中文翻译

大语言模型（LLM）系统的性能不仅取决于模型权重，还取决于其 harness：决定存储、检索和向模型呈现什么信息的代码。然而 harness 仍然主要由人工设计，现有的文本优化器与此场景匹配度不高，因为它们过度压缩反馈信息。我们引入 Meta-Harness，一个外循环系统，用于搜索 LLM 应用的 harness 代码。它使用一个智能体提议者，通过文件系统访问所有先前候选方案的源代码、分数和执行轨迹。在在线文本分类上，Meta-Harness 比最先进的上下文管理系统提升了 7.7 分，同时使用 4 倍更少的上下文 token。在检索增强数学推理上，单个发现的 harness 在 200 道 IMO 级别问题上平均提升了 4.7 分（跨五个保留模型）。在智能体编程上，发现的 harness 在 TerminalBench-2 上超越了最佳手工设计的基线。总之，这些结果表明，对先前经验的更丰富访问可以实现自动化的 harness 工程。

CARLA-Air: Fly Drones Inside a CARLA World – A Unified Infrastructure for Air-Ground Embodied Intelligence

（见重点推荐）

Generated on 2026-04-02 00:00 UTC | Sources: HuggingFace