AI Paper Daily | 2026-04-24

今日概览

共收录 16 篇论文 | Audio LLM: 2篇 | LLM Training: 8篇 | AI Agents: 4篇 | 其他值得关注: 2篇 来源: HuggingFace(16)

重点推荐 ⭐

LLaDA2.0-Uni: Unifying Multimodal Understanding and Generation with Diffusion Large Language Model

首个在统一框架内同时实现多模态理解与生成的离散扩散大语言模型,理解能力媲美专用VLM

  • 作者: Inclusion AI, Tiwei Bie, Haoxing Chen et al.
  • 来源: HuggingFace Trending (208 upvotes)
  • 链接: arXiv | PDF
  • 关键贡献: 提出LLaDA2.0-Uni,通过SigLIP-VQ离散化视觉输入、MoE骨干网络和扩散解码器的三段式架构,在单一模型中实现多模态理解与图像生成/编辑的统一,支持交错生成与推理,为下一代统一基础模型提供了可扩展范式。
  • 相关技术: discrete diffusion LLM, MoE, SigLIP-VQ, block-level masked diffusion, few-step distillation
  • 代码/权重: 已开源 ✅ (https://github.com/inclusionAI/LLaDA2.0-Uni)
📄 Abstract 中文翻译

我们提出 LLaDA2.0-Uni,一个统一的离散扩散大语言模型(dLLM),在原生集成的框架中支持多模态理解和生成。其架构结合了全语义离散分词器、基于 MoE 的 dLLM 骨干网络和扩散解码器。通过 SigLIP-VQ 对连续视觉输入进行离散化,模型在骨干网络内对文本和视觉输入实现块级掩码扩散,同时解码器将视觉 token 重构为高保真图像。推理效率通过骨干网络中的前缀感知优化和解码器中的少步蒸馏得到提升,超越了并行解码。在大规模精选数据和定制的多阶段训练流程的支持下,LLaDA2.0-Uni 在多模态理解上匹配专用 VLM,同时在图像生成和编辑方面表现出色。其对交错生成与推理的原生支持,为下一代统一基础模型建立了一个有前景且可扩展的范式。代码和模型已在 https://github.com/inclusionAI/LLaDA2.0-Uni 发布。


DR-Venus: Towards Frontier Edge-Scale Deep Research Agents with Only 10K Open Data

仅用1万条开放数据训练出4B参数的深度研究智能体,性能超越9B以下所有同类模型

  • 作者: Venus Team, Sunhao Dai, Yong Deng et al.
  • 来源: HuggingFace Trending (38 upvotes)
  • 链接: arXiv | PDF
  • 关键贡献: 提出DR-Venus,完全基于约1万条开放数据训练的4B前沿深度研究智能体。通过严格数据清洗+长轨迹重采样提升SFT质量,结合基于信息增益的turn-level奖励和格式感知正则化的IGPO强化学习,显著提升长时域任务的执行可靠性,4B模型超越9B以下同类并逼近30B级别。
  • 相关技术: agentic SFT, agentic RL, IGPO, turn-level reward, information gain, test-time scaling
  • 代码/权重: 已开源 ✅
📄 Abstract 中文翻译

基于小语言模型的边缘级深度研究智能体因其在成本、延迟和隐私方面的优势,对实际部署极具吸引力。本研究探讨了如何在有限开放数据下训练一个强大的小型深度研究智能体,通过改善数据质量和数据利用率。我们提出 DR-Venus,一个完全基于开放数据构建的前沿 4B 深度研究智能体,适用于边缘级部署。训练方案分两阶段:第一阶段使用智能体监督微调(SFT)建立基本智能体能力,结合严格数据清洗和长时域轨迹重采样以提升数据质量和利用率;第二阶段应用智能体强化学习(RL)进一步提升长时域深度研究任务的执行可靠性。为使 RL 在此设置下对小智能体有效,我们基于 IGPO 设计了基于信息增益的 turn-level 奖励和格式感知正则化,从而增强监督密度和 turn-level 信用分配。完全基于约 1 万条开放数据构建的 DR-Venus-4B 在多个深度研究基准上显著超越此前 9B 参数以下的智能体模型,同时缩小了与更大 30B 级系统的差距。进一步分析表明 4B 智能体已具备惊人的性能潜力,既凸显了小模型的部署前景,也揭示了该场景下测试时缩放的价值。我们发布了模型、代码和关键方案以支持可复现研究。


Exploring Spatial Intelligence from a Generative Perspective

首次证明生成式训练可以增强空间推理能力——生成即理解的新证据

  • 作者: Muzhi Zhu, Shunyao Jiang, Huanyi Zheng et al.
  • 来源: HuggingFace Trending (17 upvotes)
  • 链接: arXiv | PDF
  • 关键贡献: 提出GSI-Bench——首个量化生成式空间智能(GSI)的基准,包含真实和合成两类数据。实验首次明确证明:在GSI-Syn上微调统一多模态模型不仅能提升空间编辑性能,还能增强下游空间理解,揭示了生成训练对空间推理的正向迁移效应。
  • 相关技术: generative spatial intelligence, spatially grounded editing, 3D spatial constraints, unified multimodal model
  • 代码/权重: 未提及
📄 Abstract 中文翻译

空间智能对多模态大语言模型至关重要,然而现有基准大多仅从理解角度评估。我们探究现代生成式或统一多模态模型是否也具备生成式空间智能(GSI)——即在图像生成过程中遵守和操控3D空间约束的能力——以及这种能力是否可以被衡量或提升。我们提出 GSI-Bench,首个通过空间感知图像编辑来量化 GSI 的基准。它包含两个互补组成部分:GSI-Real,通过3D先验引导的生成与过滤流程构建的高质量真实世界数据集;GSI-Syn,具有可控空间操作和全自动标注的大规模合成基准。配合统一评估协议,GSI-Bench 实现了可扩展、模型无关的空间合规性和编辑保真度评估。实验表明,在 GSI-Syn 上微调统一多模态模型不仅在合成和真实任务上取得显著提升,更出人意料地也改善了下游空间理解。这提供了首个明确证据:生成式训练可以切实增强空间推理,为推进多模态模型的空间智能开辟了新路径。


SpeechParaling-Bench: A Comprehensive Benchmark for Paralinguistic-Aware Speech Generation

首个副语言感知语音生成综合基准,揭示当前LALM在韵律控制上的重大缺陷

  • 作者: Ruohan Liu, Shukang Yin, Tao Wang et al.
  • 来源: HuggingFace
  • 链接: arXiv | PDF
  • 关键贡献: 将副语言特征覆盖范围从不到50个扩展到100+细粒度特征,构建三级递进任务(精细控制、语内变化、情境适应),并提出基于LALM评判的成对比较流水线替代主观评分。实验揭示:即使领先的闭源模型也难以全面静态控制和动态调制副语言特征,43.3%的情境对话错误源于副语言线索误读。
  • 相关技术: paralinguistic features, pairwise comparison, LALM judge, intra-utterance variation, context-aware adaptation
  • 代码/权重: 未提及
📄 Abstract 中文翻译

副语言线索对于自然人机交互至关重要,然而在大音频语言模型(LALM)中的评估仍受限于粗糙的特征覆盖和评估固有的主观性。为解决这些挑战,我们提出 SpeechParaling-Bench,一个面向副语言感知语音生成的综合基准。它将现有特征覆盖范围从不到50个扩展到100多个细粒度特征,配备1000多条英汉平行语音查询,并组织为三个递进挑战性任务:精细控制、语内变化和情境适应。为实现可靠评估,我们进一步开发了成对比较流水线,其中候选响应由 LALM 评判与固定基线进行比较。通过将评估框架化为相对偏好而非绝对评分,该方法缓解了主观性,在没有昂贵人工标注的情况下实现了更稳定和可扩展的评估。大量实验揭示了当前 LALM 的重大局限性。即使是领先的闭源模型也难以进行全面的静态控制和副语言特征的动态调制,而副语言线索误读占情境对话错误的 43.3%。这些发现凸显了向更健壮的副语言建模发展的必要性,以实现与人类对齐的语音助手。


🔊 Audio LLM

CoInteract: Physically-Consistent Human-Object Interaction Video Synthesis via Spatially-Structured Co-Generation

通过人体感知MoE和双流协同生成解决人-物交互视频中的手部和接触物理一致性问题

  • 作者: Xiangyang Luo, Xiaozhe Xin, Tao Feng et al.
  • 来源: HuggingFace Trending (80 upvotes)
  • 链接: arXiv | PDF
  • 关键贡献: 提出CoInteract端到端框架,引入人体感知MoE(通过空间监督路由将token分配给区域特化专家)和空间结构协同生成(双流训练联合建模RGB外观流和HOI结构流),在推理时移除HOI分支实现零开销生成,显著提升手部结构稳定性和交互物理合理性。
  • 相关技术: Human-Aware MoE, spatially-structured co-generation, HOI structure stream, region-specialized experts, diffusion transformer
  • 代码/权重: 未提及
📄 Abstract 中文翻译

合成人-物交互(HOI)视频在电商、数字广告和虚拟营销中具有广泛的实用价值。然而,当前扩散模型尽管具备照片级真实渲染能力,仍在以下两方面频繁失败:(i) 手部和面部等敏感区域的结构稳定性,以及 (ii) 物理合理的接触(如避免手-物穿透)。我们提出 CoInteract,一个以人物参考图、产品参考图、文本提示和语音音频为条件的端到端 HOI 视频合成框架。CoInteract 在 Diffusion Transformer(DiT)骨干中引入了两个互补设计。首先,提出人体感知混合专家(MoE),通过空间监督路由将 token 分配给轻量级、区域特化专家,以最小参数开销提升细粒度结构保真度。其次,提出空间结构协同生成,一种双流训练范式,联合建模 RGB 外观流和辅助 HOI 结构流以注入交互几何先验。训练时 HOI 流关注 RGB token,其监督正则化共享骨干权重;推理时 HOI 分支被移除以实现零开销 RGB 生成。实验结果表明 CoInteract 在结构稳定性、逻辑一致性和交互真实感方面显著超越现有方法。


🧠 LLM Training

Video-ToC: Video Tree-of-Cue Reasoning

树状视觉线索定位+推理需求自适应奖励,提升视频LLM的细粒度感知和推理能力

  • 作者: Qizhong Tan, Zhuotao Tian, Guangming Lu et al.
  • 来源: HuggingFace
  • 链接: arXiv | PDF
  • 关键贡献: 提出Video-ToC框架,三大创新:(1) 树引导视觉线索定位机制赋予模型细粒度感知能力;(2) 推理需求奖励机制根据推理需求估计动态调整RL奖励值;(3) 自动标注流水线构建SFT和RL训练数据集。在六个视频理解基准和一个视频幻觉基准上超越基线和最新方法。
  • 相关技术: tree-of-cue reasoning, reasoning-demand reward, visual cue localization, reinforcement learning for video LLM
  • 代码/权重: 已开源 ✅ (https://github.com/qizhongtan/Video-ToC)
📄 Abstract 中文翻译

现有视频大语言模型(Video LLM)在复杂视频理解上表现不佳,推理能力有限且存在潜在幻觉。这些方法倾向于仅依赖预训练的固有推理依据进行推理,缺乏对输入视频内容的感知适应。为此,我们提出 Video-ToC,一种通过线索树推理增强视频理解的新型视频推理框架。具体而言,我们的方法引入三个关键创新:(1) 树引导的视觉线索定位机制,通过结构化推理模式赋予模型增强的细粒度感知能力;(2) 推理需求奖励机制,根据推理需求估计动态调整强化学习的奖励值,实现对更有效推理策略的按需激励;(3) 自动标注流水线,分别构建 Video-ToC-SFT-1k 和 Video-ToC-RL-2k 数据集用于监督微调和 RL 训练。在六个视频理解基准和一个视频幻觉基准上的广泛评估证明了 Video-ToC 相较于基线和最新方法的优越性。代码可在 https://github.com/qizhongtan/Video-ToC 获取。


SkillLearnBench: Benchmarking Continual Learning Methods for Agent Skill Generation on Real-World Tasks

首个评估智能体持续技能学习的基准,揭示外部反馈的重要性与自我反馈的递归漂移问题

  • 作者: Shanshan Zhong, Yi Lu, Jingjie Ning et al.
  • 来源: HuggingFace Trending (11 upvotes)
  • 链接: arXiv | PDF
  • 关键贡献: 提出SkillLearnBench——首个评估持续技能学习方法的基准,包含20个已验证任务、15个子领域,三级评估体系(技能质量、执行轨迹、任务结果)。发现:所有持续学习方法均优于无技能基线,但没有方法在所有任务和LLM上全面领先;外部反馈促进真正改进,而自我反馈导致递归漂移。
  • 相关技术: continual skill learning, skill generation, one-shot learning, teacher feedback, self-feedback drift
  • 代码/权重: 已开源 ✅ (https://github.com/cxcscmu/SkillLearnBench)
📄 Abstract 中文翻译

技能已成为使 LLM 智能体执行复杂现实任务的事实方式,可通过自定义指令、工作流和工具实现,但如何自动且有效地学习这些技能仍不清楚。我们提出 SkillLearnBench,首个评估持续技能学习方法的基准,包含源自真实技能分类法的 20 个已验证、依赖技能的任务,横跨 15 个子领域,在技能质量、执行轨迹和任务结果三个层面进行评估。使用该基准,我们评估了最近的持续学习技术,包括利用单样本、自反馈/教师反馈和技能创建器从智能体经验生成技能的方法。我们发现所有持续学习方法均优于无技能基线,但一致性增益仍难以捉摸:没有方法在所有任务和 LLM 上全面领先,扩展到更强 LLM 也不能可靠地带来帮助。持续学习改善了具有清晰可复用工作流的任务,但在开放式任务上表现不佳,使用更强的 LLM 骨干并不总是产生更好的技能。分析还揭示了多次迭代中持续学习通过外部反馈促进真正改进,而仅自我反馈会导致递归漂移。数据和代码已开源在 https://github.com/cxcscmu/SkillLearnBench,以支持自动技能生成和持续学习技术的进一步研究。


SAVOIR: Learning Social Savoir-Faire via Shapley-based Reward Attribution

基于Shapley值的社会智能RL框架,7B模型匹敌GPT-4o和Claude-3.5

  • 作者: Xiachong Feng, Yi Jiang, Xiaocheng Feng et al.
  • 来源: HuggingFace
  • 链接: arXiv | PDF
  • 关键贡献: 提出SAVOIR框架,将信用分配从回顾式归因转向前瞻式评估(期望效用偏移),并利用Shapley值保证公平信用分配(效率性、对称性、边际性公理保证)。在SOTOPIA基准上达到新SOTA,7B模型匹敌甚至超越GPT-4o和Claude-3.5-Sonnet,且大型推理模型同样表现不佳,表明社会智能需要与分析推理质不同的能力。
  • 相关技术: Shapley value, expected utility shift, credit assignment, social intelligence RL, cooperative game theory
  • 代码/权重: 未提及
📄 Abstract 中文翻译

社会智能——驾驭复杂人际互动的能力——对语言智能体构成根本性挑战。通过强化学习训练此类智能体需要解决信用分配问题:确定单次发言如何贡献于多轮对话结果。现有方法直接使用语言模型来分配回合级奖励,产生的归因是回顾式的且缺乏理论基础。我们提出 SAVOIR(基于 Shapley 值的社会 RL),一个基于合作博弈论的新原则性框架。我们的方法结合两个互补原则:期望效用偏移将评估从回顾式归因转向前瞻式评估,捕捉发言在促成有利未来轨迹方面的战略潜力;Shapley 值确保公平的信用分配,具有效率性、对称性和边际性的公理保证。在 SOTOPIA 基准上的实验表明,SAVOIR 在所有评估设置上实现了新的最先进性能,我们的 7B 模型匹配甚至超越了包括 GPT-4o 和 Claude-3.5-Sonnet 在内的闭源模型。值得注意的是,即使是大型推理模型也始终表现不佳,这表明社会智能需要与分析推理质不同的能力。


COMPASS: COntinual Multilingual PEFT with Adaptive Semantic Sampling

语义感知采样+持续学习框架,解决多语言PEFT中的跨语言干扰问题

  • 作者: Noah Flynn
  • 来源: HuggingFace
  • 链接: arXiv | PDF
  • 关键贡献: 提出COMPASS框架,核心是分布感知采样策略——利用多语言嵌入和聚类识别训练数据与目标使用分布之间的语义差距,优先从欠表示语义聚类中采样辅助数据,最大化正向跨语言迁移、最小化干扰。扩展为COMPASS-ECDA持续学习框架,监控生产环境数据分布漂移并动态更新适配器。在三种模型架构和多个多语言基准上一致优于基线。
  • 相关技术: multilingual PEFT, semantic sampling, cross-lingual transfer, continual learning, distribution-aware sampling, language-specific adapter
  • 代码/权重: 未提及
📄 Abstract 中文翻译

大语言模型(LLM)在不同语言上常表现出性能差异,朴素的多语言微调常因负面的跨语言干扰而降低性能。为此,我们提出 COMPASS(自适应语义采样的持续多语言 PEFT),一个以数据为中心的新框架,用于将 LLM 适配到目标语言。COMPASS 利用参数高效微调(PEFT),通过在精心选择的辅助多语言数据子集上训练轻量级、语言特定适配器来实现。方法核心是分布感知采样策略,使用多语言嵌入和聚类来识别现有训练数据与目标使用分布之间的语义差距。通过优先从欠表示的语义聚类中采样辅助数据,COMPASS 最大化正向跨语言迁移同时最小化干扰。我们将其扩展为持续学习框架 COMPASS-ECDA,监控生产环境中的数据分布漂移并动态更新适配器以防止模型过时,平衡对新数据的适应与对现有知识的保持。在三种不同模型架构(Phi-4-Mini、Llama-3.1-8B 和 Qwen2.5-7B)和多个具有挑战性的多语言基准(Global-MMLU、MMLU-ProX)包括未见过的长上下文任务(OneRuler)上,我们证明 COMPASS 一致优于基于语言相似性指导的基线方法,为在动态环境中开发和维护高性能多语言模型提供了有效、高效和可持续的解决方案。


Image Generators are Generalist Vision Learners

图像生成预训练即通用视觉学习器——Vision Banana在分割和深度估计上超越专用模型

  • 作者: Valentin Gabeur, Shangbang Long, Songyou Peng et al.
  • 来源: HuggingFace
  • 链接: arXiv | PDF
  • 关键贡献: 证明图像生成训练扮演类似LLM预训练的角色,使模型学到强大且通用的视觉表征。提出Vision Banana,通过对Nano Banana Pro进行指令微调,将视觉任务输出空间参数化为RGB图像,将感知问题重新框架为图像生成。在2D和3D理解任务上达到SOTA,分割超越SAM3,深度估计匹敌Depth Anything系列,且不牺牲基础模型的图像生成能力。
  • 相关技术: generative vision pretraining, instruction-tuning, RGB image parametrization, generalist vision model, unified vision interface
  • 代码/权重: 未提及
📄 Abstract 中文翻译

近期工作表明,图像和视频生成器展现出零样本视觉理解行为,类似于 LLM 从生成式预训练中发展出语言理解和推理的涌现能力。虽然长期以来一直猜想创造视觉内容的能力意味着理解它的能力,但生成式视觉模型是否已发展出强理解能力的证据仍然有限。本研究中,我们证明图像生成训练扮演类似 LLM 预训练的角色,使模型学到强大且通用的视觉表征,在多种视觉任务上实现 SOTA 性能。我们提出 Vision Banana,一个通过对 Nano Banana Pro(NBP)在其原始训练数据与少量视觉任务数据混合上进行指令微调构建的通用模型。通过将视觉任务的输出空间参数化为 RGB 图像,我们无缝地将感知重新框架为图像生成。我们的通用模型 Vision Banana 在涉及 2D 和 3D 理解的多种视觉任务上取得 SOTA 结果,超越或匹敌零样本领域专家,包括分割任务上的 Segment Anything Model 3 和度量深度估计上的 Depth Anything 系列。我们表明这些结果可通过轻量级指令微调实现,而不牺牲基础模型的图像生成能力。这些优异结果表明图像生成预训练是一种通用视觉学习器。它还表明图像生成可以作为视觉任务的统一通用接口,类似于文本生成在语言理解和推理中的角色。我们可能正在见证计算机视觉的重大范式转变,生成式视觉预训练在构建同时用于生成和理解的基础视觉模型中扮演核心角色。


Super Apriel: One Checkpoint, Many Speeds

单一超网络检查点支持多种推理速度预设,2.9x到10.7x吞吐量下保留77%-96%质量

  • 作者: SLAM Labs, Oleksiy Ostapenko, Raymond Li et al.
  • 来源: HuggingFace
  • 链接: arXiv | PDF
  • 关键贡献: 发布Super Apriel 15B参数超网络,每层解码器提供四种混合器选择(全注意力、滑动窗口注意力、Kimi Delta Attention、Gated DeltaNet),可在推理时无重载切换放置策略实现多速度预设,同时支持无额外草稿模型的投机解码。推荐混合预设从2.9x到10.7x解码吞吐量,质量保留96%到77%。
  • 相关技术: supernet, mixture of experts, sliding window attention, speculative decoding, stochastic distillation, placement optimization
  • 代码/权重: 已开源 ✅
📄 Abstract 中文翻译

我们发布 Super Apriel,一个 15B 参数的超网络,其中每个解码器层提供四种训练好的混合器选择——全注意力(FA)、滑动窗口注意力(SWA)、Kimi Delta Attention(KDA)和 Gated DeltaNet(GDN)。一个放置方案为每层选择一个混合器;放置方案可在服务时在请求间切换而无需重新加载权重,从单一检查点实现多速度预设。共享检查点还支持无需单独草稿模型的投机解码。全 FA 预设在所有报告基准上匹配 Apriel 1.6 教师模型;推荐的混合预设跨越 2.9 倍到 10.7 倍解码吞吐量,质量保留 96% 到 77%,且吞吐量优势在更长上下文长度下累积。凭借 48 层中的四种混合器类型,配置空间巨大。一个从每层混合器分配预测放置质量的代理模型使速度-质量景观变得可处理,并识别每个速度级别的最佳权衡。我们调查每个速度级别的最佳配置是否可以在训练早期识别还是仅在收敛后。排名在 0.5B 规模上快速稳定,但最高效的配置在 15B 时表现出更高的不稳定性,警示不要从小模型外推。Super Apriel 通过从冻结的 Apriel 1.6 教师模型进行随机蒸馏训练,随后进行监督微调。我们发布超网络权重、Fast-LLM 训练代码、vLLM 服务代码和放置优化工具包。


🤖 AI Agents

MMCORE: MultiModal COnnection with Representation Aligned Latent Embeddings

通过VLM预测语义视觉嵌入作为扩散模型条件信号,轻量实现多模态生成与编辑统一

  • 作者: Zijie Li, Yichun Shi, Jingxiang Sun et al.
  • 来源: HuggingFace
  • 链接: arXiv | PDF
  • 关键贡献: 提出MMCORE框架,利用预训练VLM通过可学习query token预测语义视觉嵌入,作为扩散模型的条件信号,将VLM的理解推理能力迁移至视觉生成流程。无需自回归与扩散模型的深度融合或从头训练,显著降低计算开销,在文本到图像和单/多图编辑基准上一致超越SOTA。
  • 相关技术: VLM-conditioned diffusion, learnable query tokens, representation alignment, interleaved image generation, spatial reasoning
  • 代码/权重: 未提及
📄 Abstract 中文翻译

我们提出 MMCORE,一个为多模态图像生成和编辑设计的统一框架。MMCORE 利用预训练的视觉语言模型(VLM)通过可学习查询 token 预测语义视觉嵌入,随后将其作为扩散模型的条件信号。这种精简设计有效地将 VLM 丰富的理解和推理能力迁移到视觉生成过程中。通过免除自回归与扩散模型之间的深度融合或从头训练的需要,MMCORE 显著降低了计算开销同时保持高保真合成。MMCORE 无缝集成文本到图像合成与交错图像生成,在空间推理和视觉定位等复杂场景中展示出强大的多模态理解能力。综合评估表明,MMCORE 在广泛的文本到图像和单/多图编辑基准上一致超越最先进基线。


SWE-chat: Coding Agent Interactions From Real Users in the Wild

首个大规模真实编程智能体会话数据集,揭示41%会话为「氛围编码」且仅44%的智能体代码被采纳

  • 作者: Joachim Baumann, Vishakh Padmakumar, Xiang Li et al.
  • 来源: HuggingFace
  • 链接: arXiv | PDF
  • 关键贡献: 发布SWE-chat——首个从开源开发者真实使用中收集的大规模编程智能体会话数据集,包含6000个会话、63000+用户提示和355000+智能体工具调用。发现编程模式呈双模态:41%会话中智能体几乎编写所有代码(「氛围编码」),23%中人类自行编写;仅44%的智能体代码被提交采纳,且智能体代码比人类代码引入更多安全漏洞;44%的轮次中用户对智能体输出提出纠正。
  • 相关技术: coding agent evaluation, interaction trace, code authorship attribution, vibe coding, agent failure modes
  • 代码/权重: 未提及
📄 Abstract 中文翻译

AI 编程智能体正被大规模采用,然而我们缺乏关于人们实际如何使用它们以及其输出在实践中有多大用的经验证据。我们提出 SWE-chat,首个从开源开发者真实使用中收集的大规模编程智能体会话数据集。数据集目前包含 6,000 个会话,涵盖超过 63,000 条用户提示和 355,000 次智能体工具调用。SWE-chat 是一个活数据集;我们的收集流水线自动且持续地从公开仓库发现和处理会话。利用 SWE-chat,我们提供了真实世界编程智能体使用和失败模式的初步经验刻画。我们发现编程模式呈双模态:在 41% 的会话中,智能体几乎编写了所有提交的代码(「氛围编码」),而在 23% 中人类自行编写所有代码。尽管能力在快速提升,编程智能体在自然环境中仍然效率低下。仅 44% 的智能体生成代码存活到用户提交中,且智能体编写的代码比人类编写的代码引入更多安全漏洞。此外,用户在 44% 的所有轮次中对智能体输出进行回推——通过纠正、失败报告和中断。通过捕获带有人类与智能体代码署名归因的完整交互轨迹,SWE-chat 为从精选基准转向基于证据的理解 AI 智能体在真实开发者工作流中的表现提供了经验基础。


TACO: A Self-Evolving Framework for Efficient Terminal Agents via Observational Context Compression

即插即用的终端智能体压缩框架,自动发现和优化压缩规则,降低10%token开销同时提升性能

  • 作者: Jincheng Ren, Siwei Wu, Yizhi Li et al.
  • 来源: HuggingFace Trending (15 upvotes)
  • 链接: arXiv | PDF
  • 关键贡献: 提出TACO框架,从交互轨迹中自动发现和优化压缩规则,解决终端环境中观察压缩的异质性问题。在TerminalBench等6个基准上,对主流智能体框架和强骨干模型一致提升性能——搭配MiniMax-2.5在降低约10%token开销的同时改善多数基准表现,在TerminalBench上带来1%-4%的一致提升,同等token预算下进一步改善2%-3%准确率。
  • 相关技术: observational context compression, self-evolving compression rules, terminal agent, token overhead reduction, trajectory mining
  • 代码/权重: 未提及
📄 Abstract 中文翻译

随着模型能力提升,研究日益转向长时域、多轮终端中心智能体任务,其中原始环境反馈常保留在交互历史中以支持未来决策。然而,反复保留此类反馈引入大量冗余,导致累积 token 成本随步骤数二次增长,阻碍长时域推理。虽然观察压缩可以缓解这一问题,但终端环境的异质性使基于启发式或固定提示的方法难以泛化。我们提出 TACO,一个即插即用、自演化的终端智能体压缩框架,自动从交互轨迹中发现和精炼压缩规则以服务于现有终端智能体。在 TerminalBench(TB 1.0 和 TB 2.0)及四个额外终端相关基准(SWE-Bench Lite、CompileBench、DevEval 和 CRUST-Bench)上的实验表明,TACO 在主流智能体框架和强骨干模型上一致提升性能。搭配 MiniMax-2.5,它在降低约 10% token 开销的同时改善了多数基准表现。在 TerminalBench 上,它在强智能体模型间带来 1%-4% 的一致提升,并在同等 token 预算下进一步改善约 2%-3% 准确率。这些结果证明了自演化、任务感知压缩对终端智能体的有效性和泛化性。


AI scientists produce results without reasoning scientifically

25000+次智能体运行揭示:AI科学家能执行工作流但不具备科学推理的认识论模式

  • 作者: Martíño Ríos-García, Nawaf Alampara, Chandan Gupta et al.
  • 来源: HuggingFace
  • 链接: arXiv | PDF
  • 关键贡献: 通过25000+次智能体运行和双透镜分析(性能分解+认识论行为分析),发现基础模型是性能和行为的主要决定因素(41.4%方差 vs 脚手架1.5%);68%的轨迹中证据被忽略,反驳驱动的信念修正仅26%;即使提供近乎完整的成功推理轨迹作为上下文,这些模式仍然存在。结论:当前LLM智能体执行科学工作流但不展现科学推理的认识论模式,仅靠脚手架工程无法修复。
  • 相关技术: epistemic norms, scientific reasoning evaluation, belief revision, evidence ignoring, agent scaffold analysis
  • 代码/权重: 未提及
📄 Abstract 中文翻译

基于大语言模型(LLM)的系统越来越多地被部署用于自主开展科学研究,然而其推理是否遵循使科学探究自我纠正的认识论规范,仍知之甚少。在此,我们通过超过 25,000 次智能体运行和两个互补透镜,评估了涵盖从工作流执行到假设驱动探究等八个领域的 LLM 科学智能体:(i) 系统性能分析,分解基础模型和智能体脚手架的贡献;(ii) 智能体推理认识论结构的行为分析。我们观察到基础模型是性能和行为的主要决定因素,解释方差占 41.4%,而脚手架仅占 1.5%。在所有配置中,68% 的轨迹中证据被忽略,反驳驱动的信念修正占 26%,收敛的多重检验证据罕见。无论智能体执行计算工作流还是进行假设驱动探究,都出现相同的推理模式。即使智能体接收近乎完整的成功推理轨迹作为上下文,这些模式仍然存在,由此产生的不可靠性在认识论要求高的领域中跨重复试验复合。因此,当前基于 LLM 的智能体执行科学工作流,但不展现表征科学推理的认识论模式。基于结果的评估无法检测这些失败,仅靠脚手架工程也无法修复它们。直到推理本身成为训练目标之前,此类智能体产生的科学知识不能由生成它的过程来证成。


LEXIS: LatEnt ProXimal Interaction Signatures for 3D HOI from an Image

通过VQ-VAE学习交互签名流形,实现单图3D人-物交互的物理合理重建

  • 作者: Dimitrije Antić, Alvaro Budria, George Paschalidis et al.
  • 来源: HuggingFace
  • 链接: arXiv | PDF
  • 关键贡献: 提出InterFields表示——编码人体和物体表面间密集、连续的接近度,以及LEXIS——通过VQ-VAE学习的离散交互签名流形,捕捉动作和物体几何结构化的交互模式。开发LEXIS-Flow扩散框架,利用LEXIS签名估计人体和物体网格及InterFields,InterFields引导精修确保物理合理重建,无需后优化。在Open3DHOI和BEHAVE上显著超越SOTA。
  • 相关技术: InterFields, VQ-VAE interaction signatures, diffusion-based HOI reconstruction, proximity-aware refinement, 3D human-object interaction
  • 代码/权重: 将公开 (https://anticdimi.github.io/lexis)
📄 Abstract 中文翻译

从 RGB 图像重建 3D 人-物交互对感知系统至关重要。然而这仍然具有挑战性,因为它需要捕捉身体和物体之间微妙的物理耦合。当前方法依赖稀疏、二值接触线索,这些无法建模表征自然交互的连续接近度和密集空间关系。我们通过 InterFields 解决这一局限,InterFields 是一种编码整个身体和物体表面间密集、连续接近度的表示。然而,从单图推断这些场本质上是病态问题。为此,我们的直觉是交互模式由动作和物体几何特征性地结构化。我们在 LEXIS 中捕捉这种结构,LEXIS 是通过 VQ-VAE 学习的离散交互签名流形。我们随后开发 LEXIS-Flow,一种利用 LEXIS 签名估计人体和物体网格及其 InterFields 的扩散框架。值得注意的是,这些 InterFields 有助于引导精修,确保物理合理、接近度感知的重建,无需后优化。在 Open3DHOI 和 BEHAVE 上的评估表明,LEXIS-Flow 在重建、接触和接近度质量上显著超越现有 SOTA 基线。我们的方法不仅改善了泛化,还产生被认为更真实的重建,使我们更接近全面的 3D 场景理解。


📌 其他值得关注

FASER: Fine-Grained Phase Management for Speculative Decoding in Dynamic LLM Serving

细粒度投机解码阶段管理,vLLM中吞吐量提升53%、延迟降低1.92倍

  • 作者: Wenyan Chen, Chengzhi Lu, Yanying Lin et al.
  • 来源: HuggingFace
  • 链接: arXiv | PDF
  • 关键贡献: 提出FASER系统,通过两大细粒度策略解决投机解码在动态推理负载下的不足:(1) 动态调整每个请求的投机长度+验证阶段内早期剪枝被拒绝token,减少计算浪费;(2) 将验证阶段分解为frontier块与草稿阶段重叠执行,通过细粒度空间复用最小化资源干扰。在vLLM中原型实现,吞吐量提升53%,延迟降低1.92倍。
  • 相关技术: speculative decoding, fine-grained phase management, early token pruning, spatial multiplexing, vLLM serving
  • 代码/权重: 未提及
📄 Abstract 中文翻译

投机解码(SD)是加速解码密集型 LLM 推理工作负载的广泛使用方法。虽然在线推理工作负载高度动态,但现有 SD 系统是刚性的,对 SD 管理采取粗粒度方法。它们通常为整个批次设置投机 token 长度,并序列化草稿和验证阶段的执行。因此,这些系统无法适应波动的在线推理流量。在低负载下,由于草稿阶段阻塞整个批次的验证阶段,GPU 计算资源未充分利用,导致延迟延长;在高负载下,验证阶段在被拒绝 token 上浪费计算,使 GPU 资源过载。我们提出 FASER,一个具有细粒度 SD 阶段管理的新系统。首先,FASER 通过动态调整连续批次中每个请求的投机长度和在验证阶段内对被拒绝 token 执行早期剪枝来最小化计算浪费。其次,FASER 将验证阶段分解为前沿(frontier)块,使其与草稿阶段重叠。这种重叠通过细粒度空间复用实现,资源干扰最小。我们在 vLLM 中的 FASER 原型相比最先进系统,吞吐量提升高达 53%,延迟降低高达 1.92 倍。


Generated on 2026-04-24 00:00 UTC | Sources: HuggingFace

Licensed under CC BY-NC-SA 4.0