AI Paper Daily | 2026-04-22

今日概览

共收录 30 篇论文 | Audio LLM: 2篇 | LLM Training: 16篇 | AI Agents: 9篇 | 其他值得关注: 3篇来源: HuggingFace(30)

重点推荐 ⭐

Qwen3.5-Omni Technical Report

千亿参数全模态模型，215 个音视频子任务 SOTA，支持 10 小时音频理解和音视频 Vibe Coding 新范式

作者: Qwen Team
来源: HuggingFace Trending (40 upvotes)
链接: arXiv | PDF
关键贡献: 首次在音频理解领域超越 Gemini-3.1 Pro；提出 ARIA 动态对齐机制解决流式语音合成不稳定问题；发现全模态模型新涌现能力——音视频 Vibe Coding（直接根据音视频指令写代码）
相关技术: Hybrid Attention MoE, streaming speech synthesis, audio-visual grounding, text-speech tokenizer alignment, omni-modality
代码/权重: 未提及

📄 Abstract 中文翻译

本文介绍 Qwen3.5-Omni，Qwen-Omni 模型家族的最新进展。相比前代有显著进化，Qwen3.5-Omni 扩展至数千亿参数，支持 256k 上下文长度。通过利用包含异构文本-视觉对和超过 1 亿小时音视频内容的大规模数据集，模型展现了强大的全模态能力。Qwen3.5-Omni-plus 在 215 个音频和音视频理解、推理与交互子任务和基准上取得 SOTA 结果，在关键音频任务上超越 Gemini-3.1 Pro，在综合音视频理解上与之持平。架构上，Qwen3.5-Omni 采用 Hybrid Attention Mixture-of-Experts (混合注意力专家混合) 框架同时用于 Thinker 和 Talker，实现高效长序列推理。模型支持超过 10 小时音频理解和 400 秒 720P 视频（1 FPS）的复杂交互。为解决流式语音合成中由文本和语音 tokenizer 编码效率差异导致的不稳定和不自然问题，引入了 ARIA 机制，动态对齐文本和语音单元，在几乎不影响延迟的情况下显著增强对话语音的稳定性和韵律。此外，Qwen3.5-Omni 扩展了语言边界，支持 10 种语言的多语言理解和语音生成，具有类人的情感细微差别。最后，Qwen3.5-Omni 展现出优越的音视频定位能力，生成具有精确时间同步和自动场景分割的脚本级结构化描述。值得注意的是，我们观察到了全模态模型中一种新涌现能力：直接基于音视频指令执行编程，我们称之为 Audio-Visual Vibe Coding（音视频氛围编程）。

OneVL: One-Step Latent Reasoning and Planning with Vision-Language Explanation

首个在自动驾驶中超越显式 CoT 的隐式推理方法，单步推理达到仅输出答案级的延迟

作者: Jinghui Lu, Jiayi Guan, Zhijian Huang et al.
来源: HuggingFace Trending (65 upvotes)
链接: arXiv | PDF
关键贡献: 提出视觉世界模型解码器，迫使隐空间内化道路因果动态；首个隐式 CoT 方法在四个基准上超越显式 CoT；推理时辅助解码器被丢弃，单步并行预填充，达到仅输出答案级的速度
相关技术: latent CoT reasoning, VLA autonomous driving, world model decoder, dual auxiliary decoders, trajectory prediction
代码/权重: 未提及

📄 Abstract 中文翻译

Chain-of-Thought (思维链, CoT) 推理已成为基于 VLA 的自动驾驶中轨迹预测的强大驱动力，但其自回归特性带来了实时部署无法容忍的延迟。隐式 CoT 方法试图通过将推理压缩到连续隐状态来弥合这一差距，但始终不及显式方法。我们认为这是因为纯语言的隐式表示压缩的是世界的符号抽象，而非实际驱动驾驶行为的因果动态。因此，我们提出 OneVL（One-step latent reasoning and planning with Vision-Language explanations，单步隐式推理与规划及视觉语言解释），一个统一的 VLA 和世界模型框架，通过由双辅助解码器监督的紧凑隐式 token 来路由推理。除了重建文本 CoT 的语言解码器外，我们引入了一个视觉世界模型解码器来预测未来帧 token，迫使隐空间内化道路几何、智能体运动和环境变化的因果动态。三阶段训练流程逐步将这些隐式表示与轨迹、语言和视觉目标对齐，确保稳定的联合优化。推理时，辅助解码器被丢弃，所有隐式 token 在单次并行传递中预填充，速度与仅输出答案的预测相匹配。在四个基准上，OneVL 成为首个超越显式 CoT 的隐式 CoT 方法，在仅输出答案级的延迟下实现了 SOTA 精度，并提供了直接证据表明当同时在语言和世界模型监督的引导下，更紧密的压缩比冗长的逐 token 推理产生更具泛化性的表示。

Agent-World: Scaling Real-World Environment Synthesis for Evolving General Agent Intelligence

自进化训练竞技场：自动发现环境与任务，多环境 RL + 自进化 Agent Arena 实现策略-环境协同进化

作者: Guanting Dong, Junting Lu, Junjie Huang et al.
来源: HuggingFace Trending (61 upvotes)
链接: arXiv | PDF
关键贡献: 提出自进化训练竞技场 Agent-World，自动从真实世界主题发现环境和合成可验证任务；通过动态任务合成识别能力差距，驱动定向学习实现策略-环境协同进化；8B 和 14B 模型在 23 个 Agent 基准上一致超越强商业模型
相关技术: MCP agent training, multi-environment RL, self-evolving arena, environment-task discovery, agentic RL scaling
代码/权重: 未提及

📄 Abstract 中文翻译

大语言模型越来越多地被期望作为通用智能体与外部有状态工具环境交互。Model Context Protocol (MCP) 和更广泛的 agent 技能提供了将 agent 与可扩展的真实世界服务连接的统一接口，但训练鲁棒的 agent 仍然受限于缺乏逼真的环境和终身学习的原则性机制。本文提出 Agent-World，一个用于推进通用 agent 智能的自进化训练竞技场。Agent-World 有两个主要组件：（1）Agentic Environment-Task Discovery（智能体环境-任务发现），自主从数千个真实世界环境主题中探索主题对齐的数据库和可执行工具生态系统，并合成具有可控难度的可验证任务；（2）Continuous Self-Evolving Agent Training（持续自进化智能体训练），结合多环境强化学习与自进化 agent 竞技场，通过动态任务合成自动识别能力差距并驱动定向学习，实现 agent 策略和环境的协同进化。在 23 个挑战性 agent 基准上，Agent-World-8B 和 14B 一致超越强商业模型和环境缩放基线。进一步分析揭示了环境多样性和自进化轮次与性能的缩放趋势，为构建通用 agent 智能提供了洞见。

OpenGame: Open Agentic Coding for Games

首个开源游戏生成 Agent 框架：Game Skill 可复用能力库 + GameCoder-27B 专用代码模型

作者: Yilei Jiang, Jinyuan Hu, Qianyin Xiao et al.
来源: HuggingFace Trending (49 upvotes)
链接: arXiv | PDF
关键贡献: 首个开源端到端网页游戏创建 Agent 框架；Game Skill 由 Template Skill（项目骨架库）和 Debug Skill（修复协议）组成，实现系统性集成错误修复而非打补丁；GameCoder-27B 通过三阶段管线（CPT→SFT→执行 RL）专门训练
相关技术: game code generation, template skill library, execution-grounded RL, headless browser evaluation, VLM judging
代码/权重: 将完全开源 ✅

📄 Abstract 中文翻译

游戏开发处于创意设计和复杂软件工程的交汇点，需要协调游戏引擎、实时循环和跨文件紧密耦合的状态。虽然大语言模型和代码 agent 现在能轻松解决孤立的编程任务，但在被要求根据高级设计生成完整可玩的游戏时，经常在跨文件不一致、损坏的场景接线和逻辑混乱中崩溃。我们用 OpenGame 弥合了这一差距，这是首个明确为端到端网页游戏创建设计的开源 agent 框架。其核心是 Game Skill，一种可复用、可演进的能力，由 Template Skill（从经验中增长项目骨架库）和 Debug Skill（维护经过验证的修复的活协议）组成——共同使 agent 能够搭建稳定架构并系统性修复集成错误，而非修补孤立的语法 bug。支撑该框架的是 GameCoder-27B，一个通过持续预训练、监督微调和执行强化学习三阶段管线专门训练游戏引擎掌握的代码 LLM。由于验证交互式可玩性从根本上比检查静态代码更难，我们进一步引入 OpenGame-Bench，一个通过无头浏览器执行和 VLM 评判，沿 Build Health（构建健康）、Visual Usability（视觉可用性）和 Intent Alignment（意图对齐）评分的评估管线。在 150 个多样化游戏提示上，OpenGame 建立了新的 SOTA。我们的框架将完全开源。

🔊 Audio LLM

Multiplication in Multimodal LLMs: Computation with Text, Image, and Audio Inputs

多模态 LLM 的算术瓶颈诊断：跨模态乘法失败主要源于计算而非感知，引入算术负荷指标 C

作者: Samuel G. Balter, Ethan Jerzak, Connor T. Jerzak
来源: HuggingFace Trending (3 upvotes)
链接: arXiv | PDF
关键贡献: 构建了控制性多模态乘法基准，系统变化位数、稀疏度、表示方式和模态；发现多模态退化主要源于计算而非感知——匹配感知检查上准确率 >99%但乘法准确率骤降；提出 forced-completion loss probe 揭示模型内部路由倾向分解策略
相关技术: multimodal arithmetic, arithmetic load metric, heuristic-specific LoRA, perception-computation decomposition, digit sparsity
代码/权重: 未提及

📄 Abstract 中文翻译

多模态 LLM 能够准确感知跨模态的数字内容，但在相同的底层算术问题以数字、数词、图像或音频形式呈现时，无法执行精确的多位数乘法。由于现有基准通常缺乏跨模态的系统配对实例，很难在模型家族内和跨家族比较真正的算术极限。因此我们引入了一个控制性多模态乘法基准，因子化变化位数长度、数字稀疏度、表示形式（如数字 vs. 数词）和模态（文本、渲染图像、音频），配对实例来自可复现的生成器。我们还定义了算术负荷 C，作为总位数和非零位数计数的乘积，作为操作计数的紧凑、机制驱动的代理指标。在跨模态评估中，准确率随 C 增长急剧下降，C > 100 时通常接近零。C 在跨模态和模型中保持对性能的预测性，R 平方通常 > 0.5，接近更复杂算术负荷测量的值。单独的感知-计算分解显示，多模态退化主要是计算性的而非感知性的：在匹配感知检查上，模型在跨模态中接近完美（> 99%），即使乘法准确率骤降。除了测量模型何时失败，我们还探究它们倾向于遵循哪些程序。我们引入了 forced-completion loss probe，对特定启发式推理前缀（包括竖式乘法、分配分解和舍入/补偿）进行评分。在这里，分解在文本和视觉模态中都受青睐；特定启发式的 LoRA 适配器产生近似正交的更新却降低了准确率，表明基础模型维护着良好调优的内部路由。

🧠 LLM Training

LiteResearcher: A Scalable Agentic RL Training Framework for Deep Research Agent

轻量虚拟世界替代真实搜索，4B 模型在 GAIA 和 Xbench 上达到开源 SOTA

作者: Wanli Li, Bince Qu, Bo Pan et al.
来源: HuggingFace Trending (1 upvote)
链接: arXiv | PDF
关键贡献: 构建模仿真实搜索动态的轻量虚拟世界，消除 RL 训练中对真实搜索的依赖；LiteResearcher-4B 在 GAIA 上 71.3%、Xbench 上 78.0%，超越通义深研和 Claude-4.5 Sonnet
相关技术: agentic RL, virtual search world, deep research agent, scalable RL training, reward shaping
代码/权重: 未提及

📄 Abstract 中文翻译

强化学习 (RL) 已成为训练基于 LLM 的 agent 的强大范式。然而，扩展深度研究的 agentic RL 仍受两个耦合挑战制约：手工合成数据无法激发真正的真实世界搜索能力，而 RL 训练中对真实世界搜索的依赖引入了不稳定性和高昂成本，限制了 agentic RL 的可扩展性。LiteResearcher 是一个使 agentic RL 可扩展的训练框架：通过构建模拟真实世界搜索动态的轻量虚拟世界，我们实现了持续改进的训练方案，使小型搜索 agent 超越大规模开源和商业模型（如通义深研和 Claude-4.5 Sonnet）。具体而言，在 GAIA 和 Xbench 等常见基准上，我们的 LiteResearcher-4B 分别取得了 71.3% 和 78.0% 的开源 SOTA 结果，证明了可扩展的 RL 训练是 Deep Research Agent 的关键使能器。

EasyVideoR1: Easier RL for Video Understanding

视频理解专用 RL 训练框架：离线预处理 + Tensor 缓存带来 1.47x 吞吐提升，覆盖 11 类任务和 22 个基准

作者: Chuanyu Qin, Chenxu Yang, Qingyi Si et al.
来源: HuggingFace Trending (32 upvotes)
链接: arXiv | PDF
关键贡献: 完整的视频 RL 训练管线，离线预处理 + Tensor 缓存消除冗余视频解码，吞吐提升 1.47 倍；任务感知奖励系统覆盖 11 种视频/图像问题类型；混合离线-在线训练范式，高质量轨迹与在线探索互补
相关技术: RLVR for video, tensor caching, task-aware reward system, mixed offline-online training, asynchronous multi-benchmark evaluation
代码/权重: 未提及

📄 Abstract 中文翻译

从可验证奖励的强化学习 (RLVR) 在提升大语言模型推理能力方面展现了显著效果。随着模型演变为原生多模态架构，将 RLVR 扩展到视频理解变得越来越重要但仍大多未被探索，原因是视频任务类型的多样性、重复解码和预处理高维视觉输入的计算开销，以及众多敏感超参数下可复现评估的困难。现有的开源 RL 训练框架为文本和图像场景提供了坚实基础，但缺乏针对视频模态的系统性优化。本文提出 EasyVideoR1，一个专门为在视频理解任务上训练大型视觉语言模型设计的完整高效强化学习框架。EasyVideoR1 做出以下贡献：（1）完整的视频 RL 训练管线，包含离线预处理和 Tensor 缓存，消除冗余视频解码，带来 1.47 倍的吞吐提升；（2）全面的任务感知奖励系统，覆盖 11 种不同的视频和图像问题类型，具有统一路由和模块化扩展；（3）混合离线-在线数据训练范式，结合策划的高质量轨迹与在线策略探索，有利于更具挑战性任务的学习；（4）图像-视频联合训练，独立可配置的像素预算，允许两种模态互相增强；（5）异步多基准评估框架，覆盖 22 个主流视频理解基准，复现的准确率与官方报告分数密切一致。

MNAFT: modality neuron-aware fine-tuning of multimodal large language models for image translation

模态神经元感知微调：识别语言无关/语言特定神经元，选择性微调解决图像翻译中的模态鸿沟

作者: Bo Li, Ningyuan Deng, Tianyu Dong et al.
来源: HuggingFace Trending (1 upvote)
链接: arXiv | PDF
关键贡献: 通过指令驱动激活分析识别视觉和语言模块中的语言无关与语言特定神经元；仅更新与目标任务相关的语言特定和语言无关神经元参数，保留其他知识；在多个基准上显著超越级联模型、全量微调和参数高效微调方法
相关技术: modality neuron identification, instruction-driven activation analysis, selective fine-tuning, cross-modal understanding, image translation
代码/权重: 未提及

📄 Abstract 中文翻译

多模态大语言模型 (MLLM) 展现了令人印象深刻的能力，但往往难以有效捕获图像中对于准确图像翻译至关重要的细粒度文本信息。这通常导致视觉文本输入与文本输入/输出之间的模态鸿沟。现有方法主要依赖指令微调，存在预训练知识参数冗余的风险，阻碍泛化性能。为此，我们引入模态神经元感知微调 (MNAFT)，一种利用 MLLM 中个体神经元专业化角色来增强图像翻译的新方法。MNAFT 通过指令驱动激活分析识别视觉和语言模块中的语言无关和语言特定神经元，评估它们在各种翻译任务中的重要性。然后我们执行选择性微调，仅更新与目标任务相关的选定层中语言特定和语言无关神经元的参数，同时保留编码在其他神经元和层中的知识。我们在多个基准上的广泛实验证明，MNAFT 显著优于 SOTA 图像翻译方法，包括级联模型、标准全量微调和参数高效微调技术。此外，我们提供了综合分析，包括神经元激活和聚类模式的可视化，为不同神经元群体在介导跨模态理解和促进准确语言特定翻译中的角色提供了洞见。

类人认知模块化的零样本无人机导航：语言处理/感知/注意/记忆/想象/推理/决策各模块独立驱动

作者: Dian Shao, Zhengzheng Xu, Peiyang Wang et al.
来源: HuggingFace Trending (1 upvote)
链接: arXiv | PDF
关键贡献: 受人类认知启发的自顶向下框架，将导航组织为细粒度认知模块；每个模块由中等规模基础模型+角色特定提示驱动，支持有效协作和可解释性；构建 AerialVLN-Fine 基准，含 300 条句子级对齐轨迹
相关技术: zero-shot VLN, cognitive modularization, UAV navigation, sentence-level alignment, structured input-output protocols
代码/权重: 未提及

📄 Abstract 中文翻译

无人机视觉语言导航 (VLN) 要求 agent 在遵循模糊多步指令的同时，从第一人称视角导航复杂的 3D 环境，跨越长视野。现有零样本方法仍然有限，因为它们通常依赖大型基础模型、通用提示和松散协调的模块。本文提出 FineCog-Nav，一个受人类认知启发的自顶向下框架，将导航组织为细粒度模块，涵盖语言处理、感知、注意、记忆、想象、推理和决策。每个模块由具有角色特定提示和结构化输入-输出协议的中等规模基础模型驱动，实现有效协作和改进的可解释性。为支持细粒度评估，我们构建了 AerialVLN-Fine，一个从 AerialVLN 衍生的 300 条轨迹的精选基准，具有句子级指令-轨迹对齐和包含明确视觉端点和地标参考的精炼指令。实验表明，FineCog-Nav 在指令遵循、长视野规划和对未见环境的泛化方面一致优于零样本基线。

Where does output diversity collapse in post-training?

后训练中输出多样性崩溃的追踪：崩溃位置与数据组成共变，推理格式无法挽救训练植入的崩溃

作者: Constantinos Karouzos, Xingwei Tan, Nikolaos Aletras
来源: HuggingFace Trending (11 upvotes)
链接: arXiv | PDF
关键贡献: 追踪 Olmo3 三条后训练线路的多样性崩溃，发现崩溃位置与数据组成共变；抑制推理时 CoT 不改变答案级多样性，证明崩溃已嵌入模型权重；将多样性损失分解为质量控制与真实收窄，Think 模型尽管总体崩更多但正确答案多样性保留更好
相关技术: output diversity collapse, post-training data composition, chain-of-thought distillation, DPO effect, quality-control decomposition
代码/权重: 未提及

📄 Abstract 中文翻译

后训练的语言模型比其基础对应物产生更少变化的输出。这种输出多样性崩溃削弱了依赖多样样本的推理时缩放方法，并可能在创意和价值相关任务上使模型输出同质化。先前工作将崩溃归因于特定后训练方法，未分离训练数据组成与方法的角色，或生成格式与模型权重的影响。我们追踪了 Olmo3 三条并行后训练谱系——Think（思维链蒸馏）、Instruct（广泛多源数据）和 RL-Zero——在 15 个任务和四个文本多样性指标上的输出多样性。我们发现崩溃的位置与数据组成共变：Think 谱系在监督微调阶段丢失最多语义多样性，DPO 在 Instruct 中的影响大于 Think。在推理时抑制 Think 模型的思维链推理会降低困难任务的准确率，但答案级多样性不变，表明崩溃已由训练数据嵌入模型权重，而非由生成格式施加。将六个可验证任务上的多样性损失分解为质量控制成分（去除不正确输出）和残余成分（正确输出间的真实收窄）显示，这种分割是任务依赖的，Think 模型尽管在总体上崩溃更多，但正确答案多样性保留得比 Instruct 更好。我们的结果表明，多样性崩溃在训练时由数据组成决定，无法仅在推理时解决。

When Can LLMs Learn to Reason with Weak Supervision?

弱监督下 RLVR 泛化的关键：推理忠实度预测泛化能力，SFT 推理轨迹是必要前提

作者: Salman Rahman, Jingyan Shen, Anna Mordvina et al.
来源: HuggingFace Trending (18 upvotes)
链接: arXiv | PDF
关键贡献: 发现泛化由训练奖励饱和动态控制：缓慢饱和→泛化，快速饱和→记忆；识别推理忠实度为预测泛化的预训练属性；SFT 推理轨迹是弱监督下泛化的必要条件，CPT 域数据放大效果
相关技术: RLVR weak supervision, reward saturation dynamics, reasoning faithfulness, SFT+CPT decomposition, scarce data generalization
代码/权重: 未提及

📄 Abstract 中文翻译

大语言模型通过可验证奖励的强化学习 (RLVR) 取得了显著的推理提升。然而随着模型能力增长，构建高质量奖励信号变得越来越困难，理解 RLVR 在弱监督下何时能成功变得至关重要。我们在三种弱监督设置下进行了系统实证研究：稀缺数据、噪声奖励和自监督代理奖励。我们发现泛化受训练奖励饱和动态控制：泛化的模型表现出延长的预饱和阶段，训练奖励和下游性能同步攀升，而快速饱和的模型则记忆而非学习。我们识别出推理忠实度——中间步骤逻辑支撑最终答案的程度——为预测模型进入哪种状态的预训练属性，而输出多样性本身没有信息量。受这些发现启发，我们分离了持续预训练和监督微调的贡献，发现 SFT 显式推理轨迹是弱监督下泛化的必要条件，而域数据持续预训练放大了这一效果。将两者联合应用于 Llama3.2-3B-Base，使之前失败的基础模型在所有三种设置下都能泛化。

CoDial: Interpretable Task-Oriented Dialogue Systems Through Dialogue Flow Alignment

将任务 schema 转为可执行代码实现 LLM 对话护栏，兼具 SOTA 性能和内在可解释性

作者: Radin Shayanfar, Chu Fei Luo, Rohan Bhambhoria et al.
来源: HuggingFace Trending (0 upvotes)
链接: arXiv | PDF
关键贡献: 将预定义任务 schema 转换为结构化异构图再到 LLM 护栏代码（如 NVIDIA Colang）；提出两种代码生成范式；引入人类反馈迭代改进生成代码的机制
相关技术: task schema graph, Colang guardrailing, dialogue policy alignment, interpretable TOD, iterative feedback improvement
代码/权重: 未提及

📄 Abstract 中文翻译

构建能跨不同任务泛化的面向任务对话 (TOD) 系统仍然是一个挑战性问题。数据驱动方法通常难以有效迁移到未见任务。虽然最近的基于 schema 的 TOD 框架通过解耦任务逻辑与语言理解改进了泛化，但它们对神经或生成模型的依赖往往模糊了任务 schema 如何影响行为，从而损害可解释性。本文引入新框架 CoDial（Code for Dialogue，对话代码），其核心是将预定义任务 schema 转换为结构化异构图，然后转换为程序化 LLM 护栏代码，如 NVIDIA 的 Colang。该管线在推理期间实现高效且可解释的对话策略对齐。我们引入两种 LLM 护栏代码生成范式——CoDial_free 和 CoDial_structured，并提出一种整合人类反馈以迭代改进生成代码的机制。实证上，CoDial 在广泛使用的基准数据集上取得 SOTA 性能，同时在设计中提供内在可解释性。我们还通过手动和 LLM 辅助反馈展示了 CoDial 的迭代改进，使其成为在未见领域中人工引导 LLM 对齐的实用工具。

When Background Matters: Breaking Medical Vision Language Models by Transferable Attack

MedFocusLeak：对非诊断背景区域注入扰动 + 注意力分散，攻击医疗 VLM 生成错误但临床合理的诊断

作者: Akash Ghosh, Subhadip Baidya, Sriparna Saha et al.
来源: HuggingFace Trending (1 upvote)
链接: arXiv | PDF
关键贡献: 提出高度可迁移的黑盒多模态攻击，在非诊断背景区域注入协调扰动；注意力分散机制使模型关注偏离病理区域；引入联合捕获攻击成功和图像保真度的统一评估框架
相关技术: black-box multimodal attack, attention distraction, background perturbation, medical VLM robustness, image fidelity metrics
代码/权重: 未提及

📄 Abstract 中文翻译

视觉语言模型 (VLM) 越来越多地用于临床诊断，但其对对抗攻击的鲁棒性在很大程度上未被探索，构成了严重风险。现有的医疗攻击专注于模型窃取或对抗微调等次要目标，而来自自然图像的可迁移攻击引入了临床医生容易检测的可见失真。为此，我们提出 MedFocusLeak，一种高度可迁移的黑盒多模态攻击，在保持扰动不可见的同时诱导错误但临床合理的诊断。该方法向非诊断背景区域注入协调扰动，并采用注意力分散机制将模型焦点从病理区域移开。跨六种医学成像模态的广泛评估显示，MedFocusLeak 取得 SOTA 性能，在多种 VLM 上生成误导但逼真的诊断输出。我们进一步引入了具有新指标的统一评估框架，联合捕获攻击成功和图像保真度，揭示了现代临床 VLM 推理能力的关键弱点。

MultiWorld: Scalable Multi-Agent Multi-View Video World Models

多智能体多视角视频世界模型：Multi-Agent Condition Module 实现精确控制，Global State Encoder 保证视角一致性

作者: Haoyu Wu, Jiwen Yu, Yingtian Zou, Xihui Liu
来源: HuggingFace Trending (35 upvotes)
链接: arXiv | PDF
关键贡献: 首个统一的多智能体多视角世界建模框架；Multi-Agent Condition Module 实现精确多智能体可控性；Global State Encoder 确保跨视角观察的一致性；支持灵活扩展智能体和视角数量
相关技术: multi-agent video generation, multi-view consistency, action-conditioned world model, global state encoding, parallel view synthesis
代码/权重: 未提及

📄 Abstract 中文翻译

视频世界模型在响应用户或智能体动作模拟环境动态方面取得了显著成功。它们被建模为以条件动作的视频生成模型，将历史帧和当前动作作为输入来预测未来帧。然而，大多数现有方法仅限于单智能体场景，无法捕获现实世界多智能体系统中固有的复杂交互。我们提出 MultiWorld，一个用于多智能体多视角世界建模的统一框架，能够精确控制多个智能体同时保持多视角一致性。我们引入 Multi-Agent Condition Module 实现精确的多智能体可控性，以及 Global State Encoder 确保跨不同视角的一致观察。MultiWorld 支持灵活扩展智能体和视角数量，并高效并行合成不同视角。在多人游戏环境和多机器人操作任务上的实验表明，MultiWorld 在视频保真度、动作跟随能力和多视角一致性方面优于基线。

Mind DeepResearch Technical Report

理想汽车 30B 参数多 Agent 深度研究框架：三智能体协作 + 四阶段训练，在 BrowseComp 等基准上媲美大模型

作者: MindDR Team, Li Auto Inc
来源: HuggingFace Trending (19 upvotes)
链接: arXiv | PDF
关键贡献: 协作三智能体架构（Planning Agent、DeepSearch Agent、Report Agent）；四阶段智能体专化训练管线（SFT→Search-RL→Report-RL→偏好对齐）；~30B 模型在 BrowseComp-ZH 45.7% 等基准上媲美更大规模模型
相关技术: multi-agent deep research, agent-specialized training, search RL, report RL, preference alignment
代码/权重: 未提及

📄 Abstract 中文翻译

我们介绍 Mind DeepResearch (MindDR)，一个高效的多智能体深度研究框架，通过精心设计的数据合成和多阶段训练管线，仅用约 30B 参数模型就取得了领先性能。MindDR 的核心创新在于协作的三智能体架构（Planning Agent、DeepSearch Agent 和 Report Agent）和四阶段智能体专化训练管线，包括 SFT 冷启动、Search-RL、Report-RL 和偏好对齐。在此训练方案下，MindDR 即使在约 30B 规模模型上也展现了竞争性性能。具体而言，MindDR 在 BrowseComp-ZH 上达到 45.7%，BrowseComp 上 42.8%，WideSearch 上 46.5%，xbench-DS 上 75.0%，DeepResearch Bench 上 52.5，超越了同等规模的开源 agent 系统并匹敌更大规模模型。MindDR 已作为在线产品部署于理想汽车。此外，我们引入 MindDR Bench，一个由内部产品用户交互策划的 500 个真实中文查询基准，通过综合多维度评分体系而非单一 RACE 指标进行评估。在 MindDR Bench 上，MindDR 取得了 SOTA 分数 51.8。

UDM-GRPO: Stable and Efficient Group Relative Policy Optimization for Uniform Discrete Diffusion Models

首个将 GRPO 与均匀离散扩散模型结合的框架：GenEval 准确率 69%→96%，OCR 8%→57%

作者: Jiaqi Wang, Haoge Deng, Ting Pan et al.
来源: HuggingFace Trending (2 upvotes)
链接: arXiv | PDF
关键贡献: 首个将均匀离散扩散模型 (UDM) 与 RL 结合的框架；将最终清洁样本视为动作提供更稳定的优化信号；通过扩散前向过程重建轨迹对齐预训练分布；引入 Reduced-Step 和 CFG-Free 策略提升训练效率
相关技术: uniform discrete diffusion, GRPO, diffusion-RL integration, trajectory reconstruction, text-to-image RL
代码/权重: 已开源 ✅

📄 Abstract 中文翻译

均匀离散扩散模型 (UDM) 最近已成为离散生成建模的有前途范式；然而，其与强化学习的整合仍大多未被探索。我们观察到朴素地将 GRPO 应用于 UDM 会导致训练不稳定和边际性能提升。为此，我们提出 UDM-GRPO，首个将 UDM 与 RL 整合的框架。我们的方法受两个关键洞察指导：（i）将最终清洁样本视为动作提供更准确和稳定的优化信号；（ii）通过扩散前向过程重建轨迹更好地将概率路径与预训练分布对齐。此外，我们引入 Reduced-Step 和 CFG-Free 两种策略进一步提升训练效率。UDM-GRPO 在多个文本到图像任务上显著提升基础模型性能。值得注意的是，GenEval 准确率从 69% 提升至 96%，PickScore 从 20.46 提升至 23.81，在连续和离散设置中都取得了 SOTA 性能。在 OCR 基准上，准确率从 8% 提升至 57%，进一步验证了我们方法的泛化能力。

Linear-Time and Constant-Memory Text Embeddings Based on Recurrent Language Models

基于 RNN 的文本嵌入：垂直分块推理实现线性时间和常量内存，Mamba2 微调达到竞争力性能

作者: Tobias Grantner, Emanuel Sallinger, Martin Flechl
来源: HuggingFace Trending (0 upvotes)
链接: arXiv | PDF
关键贡献: 提出垂直分块推理策略，输入超过块大小时内存用量变为常量；微调 Mamba2 模型证明 RNN 作为通用文本嵌入器的可行性；在 Mamba2、RWKV 和 xLSTM 上验证一致的运行时-内存权衡
相关技术: recurrent text embedding, vertical chunked inference, Mamba2 fine-tuning, constant memory embedding, linear-time inference
代码/权重: 未提及

📄 Abstract 中文翻译

基于 Transformer 的嵌入模型受限于二次计算和线性内存复杂度，限制了其在长序列上的实用性。我们提出循环架构作为高效替代，引入垂直分块推理策略，实现快速嵌入生成，且当输入长度超过垂直块大小时内存用量变为常量。通过微调 Mamba2 模型，我们展示了其作为通用文本嵌入器的可行性，在多个基准上取得竞争力性能，同时保持比 Transformer 对应物小得多的内存占用。我们实证验证了推理策略在 Mamba2、RWKV 和 xLSTM 模型上的适用性，确认了跨架构一致的运行时-内存权衡，确立了循环模型作为高效嵌入生成的 Transformer 令人信服的替代方案。

Precise Debugging Benchmark: Is Your Model Debugging or Regenerating?

前沿模型调试精度不足 45%：PDB 基准揭示 LLM 倾向于重写而非精确修复

作者: Wang Bill Zhu, Miaosen Chai, Shangshang Wang et al.
来源: HuggingFace Trending (2 upvotes)
链接: arXiv | PDF
关键贡献: 提出编辑级精度和 bug 级召回两个新指标；前沿模型单元测试通过率 >76% 但编辑精度 <45%；迭代和 agent 化调试策略未实质性改善精度或召回
相关技术: edit-level precision, bug-level recall, atomic bug synthesis, minimal debugging, multi-bug composition
代码/权重: 未提及

📄 Abstract 中文翻译

与代码补全不同，调试需要定位故障并应用针对性编辑。我们观察到前沿 LLM 在调试时经常重新生成正确但过度编辑的解决方案。为评估 LLM 距精确调试有多远，我们引入 Precise Debugging Benchmark (PDB) 框架，可自动将任何编码数据集转换为具有精度感知评估的调试基准。PDB 通过合成经验证的原子 bug 并将其组合为多 bug 程序来生成有缺陷的程序。我们定义了两个新指标——编辑级精度和 bug 级召回，分别测量进行了多少必要编辑和解决了多少 bug。我们发布两个评估基准：针对单行 bug 的 PDB-Single-Hard 和针对多行 bug 的 PDB-Multi。实验显示，GPT-5.1-Codex 和 DeepSeek-V3.2-Thinking 等前沿模型单元测试通过率超过 76%，但编辑精度低于 45%，即使被明确指示执行最小化调试。最后，我们表明迭代和 agent 化调试策略未实质性改善精度或召回，突出了重新思考编码模型后训练管线的必要性。

On the Robustness of LLM-Based Dense Retrievers: A Systematic Analysis of Generalizability and Stability

LLM 检索器鲁棒性系统分析：推理优化模型泛化受损，缩放通常提升鲁棒性

作者: Yongkang Li, Panagiotis Eustratiadis, Yixing Fan et al.
来源: HuggingFace Trending (0 upvotes)
链接: arXiv | PDF
关键贡献: 首次系统研究 LLM 检索器的鲁棒性，从泛化性和稳定性两个互补角度分析；发现推理优化模型存在「专业化税」，在更广泛上下文中泛化受限；LLM 检索器对拼写错误和语料库投毒的鲁棒性优于编码器基线，但对同义词替换等语义扰动仍脆弱
相关技术: dense retrieval robustness, instruction-tuned retriever, embedding geometry, corpus poisoning, linear mixed-effects model
代码/权重: 已开源 ✅

📄 Abstract 中文翻译

仅解码器大语言模型 (LLM) 正在越来越多地替代 BERT 风格架构成为密集检索的骨干，取得了实质性性能提升和广泛采用。然而，这些基于 LLM 的检索器的鲁棒性仍未被充分探索。本文首次从泛化性和稳定性两个互补角度对 SOTA 开源 LLM 检索器进行系统鲁棒性研究。在泛化性方面，我们在 4 个基准涵盖 30 个数据集上评估检索效果，使用线性混合效应模型估计边际均值性能，将内在模型能力与数据集异质性分离。分析揭示，虽然指令微调模型通常表现优异，但针对复杂推理优化的模型经常遭受「专业化税」，在更广泛上下文中泛化有限。在稳定性方面，我们评估了模型对无意查询变化（如复述、拼写错误）和恶意对抗攻击（如语料库投毒）的韧性。我们发现 LLM 检索器对拼写错误和语料库投毒的鲁棒性相比编码器基线有所改善，但对同义替换等语义扰动仍然脆弱。进一步分析显示，嵌入几何（如角度均匀性）为词汇稳定性提供了预测信号，缩放模型大小通常改善鲁棒性。

🤖 AI Agents

WebCompass: Towards Multimodal Web Coding Evaluation for Code Language Models

多模态网页编码评估基准：三种输入模态 × 三种任务类型，Agent-as-a-Judge 自动探索交互行为

作者: Xinping Lei, Xinyu Che, Junqi Xiong et al.
来源: HuggingFace Trending (18 upvotes)
链接: arXiv | PDF
关键贡献: 多模态基准覆盖文本/图像/视频输入和生成/编辑/修复三种任务类型，共七个任务类别；提出 Agent-as-a-Judge 范式，自动在真实浏览器中执行生成网站、探索交互行为并合成测试用例；发现美观性是开源模型最持久的瓶颈
相关技术: multimodal web coding, Agent-as-a-Judge, MCP browser exploration, checklist-guided evaluation, framework effect analysis
代码/权重: 未提及

📄 Abstract 中文翻译

大语言模型正迅速演变为能够端到端网页编码的交互式编码 agent，但现有基准仅评估这一能力的狭窄切片，通常是带有静态正确性指标的文本条件生成，使视觉保真度、交互质量和代码库级推理在很大程度上未被测量。我们引入 WebCompass，一个为网页工程能力提供统一生命周期评估的多模态基准。认识到真实世界的网页编码是生成、编辑和修复的迭代循环，WebCompass 涵盖三种输入模态（文本、图像、视频）和三种任务类型（生成、编辑、修复），产生七个镜像专业工作流的任务类别。通过多阶段人机协作管线，我们策划了覆盖 15 个生成领域、16 种编辑操作类型和 11 种修复缺陷类型的实例，每个都标注了 Easy/Medium/Hard 级别。评估方面，编辑和修复采用清单引导的 LLM-as-a-Judge 协议，生成则提出新颖的 Agent-as-a-Judge 范式，在真实浏览器中自主执行生成的网站，通过 MCP 探索交互行为，迭代合成针对性测试用例，近似人工验收测试。我们评估了代表性闭源和开源模型，观察到：闭源模型仍然明显更强更均衡；编辑和修复呈现不同的难度特征；美观性是最持久的瓶颈，尤其对开源模型；框架选择实质性影响结果，Vue 一致具有挑战性，而 React 和 Vanilla/HTML 根据任务类型表现更强。

MathNet: a Global Multimodal Benchmark for Mathematical Reasoning and Retrieval

覆盖 47 国 17 语言的奥数级数学基准，首个同时评估推理与检索的多模态数据集

作者: Shaden Alshammari, Kevin Wen, Abrar Zainal et al.
来源: HuggingFace Trending (7 upvotes)
链接: arXiv | PDF
关键贡献: 覆盖 47 国、17 语言、20 年竞赛的 30,676 道专家出题的奥数问题；支持三种任务：问题求解、数学感知检索和检索增强问题求解；DeepSeek-V3.2-Speciale 通过检索增强获得最高 12% 的提升
相关技术: Olympiad math reasoning, math-aware retrieval, retrieval-augmented problem solving, multilingual benchmark, expert-curated pairs
代码/权重: 已开源 ✅

📄 Abstract 中文翻译

数学问题求解仍然是大型语言和多模态模型推理能力的挑战性测试，但现有基准在规模、语言覆盖和任务多样性方面有限。我们引入 MathNet，一个高质量、大规模、多模态、多语言的奥数级数学问题数据集，以及用于评估生成模型中数学推理和基于嵌入的系统中数学检索的基准。MathNet 涵盖 47 个国家、17 种语言和二十年的竞赛，包含 30,676 道跨多个领域的专家出题的带解答问题。除核心数据集外，我们构建了一个检索基准，包含由人类专家策划的数学等价和结构相似的问题对。MathNet 支持三种任务：（i）问题求解，（ii）数学感知检索，和（iii）检索增强问题求解。实验结果显示，即使是 SOTA 推理模型（Gemini-3.1-Pro 78.4%，GPT-5 69.3%）仍面临挑战，而嵌入模型难以检索等价问题。我们进一步表明，检索增强生成性能对检索质量高度敏感；例如，DeepSeek-V3.2-Speciale 获得了高达 12% 的提升，取得了基准最高分。

Extending One-Step Image Generation from Class Labels to Text via Discriminative Text Representation

MeanFlow 扩展到文本条件：发现文本特征需要足够判别性，一步生成首次实现高效文本条件合成

作者: Chenxi Zhao, Chen Zhu, Xiaokun Feng et al.
来源: HuggingFace Trending (86 upvotes)
链接: arXiv | PDF
关键贡献: 揭示 MeanFlow 中文本特征判别性不足是一步生成失败的根因；利用具有所需语义属性的 LLM 文本编码器适配 MeanFlow 生成过程；首次在 MeanFlow 框架中实现高效的文本条件合成
相关技术: MeanFlow, text-conditioned one-step generation, discriminative text representation, LLM text encoder, diffusion model improvement
代码/权重: 已开源 ✅

📄 Abstract 中文翻译

少步生成一直是一个长期目标，最近以 MeanFlow 为代表的一步生成方法取得了显著成果。现有 MeanFlow 研究主要集中在类别到图像生成。然而，一个直觉但未被探索的方向是将条件从固定类别标签扩展到灵活文本输入，实现更丰富的内容创作。与有限的类别标签相比，文本条件对模型理解能力提出更大挑战，需要将强大的文本编码器有效整合到 MeanFlow 框架中。令人惊讶的是，虽然整合文本条件看似简单，但我们发现使用常规训练策略整合强大的基于 LLM 的文本编码器导致不令人满意的性能。为揭示根本原因，我们进行了详细分析并发现，由于 MeanFlow 生成中细化步骤极其有限（如仅一步），文本特征表示需要具备足够高的判别性。这也解释了为什么离散且易于区分的类别特征在 MeanFlow 框架中表现良好。在这些洞察指导下，我们利用经验证具有所需语义属性的强大 LLM 文本编码器，将 MeanFlow 生成过程适配到此框架，首次实现高效的文本条件合成。此外，我们在广泛使用的扩散模型上验证了方法，展示了显著的生成性能提升。

MHSafeEval: Role-Aware Interaction-Level Evaluation of Mental Health Safety in Large Language Models

角色感知心理健康安全评估：静态基准系统性遗漏累积性伤害，多轮对抗交互揭示角色依赖的失败模式

作者: Suhyun Lee, Palakorn Achananuparp, Neemesh Yadav et al.
来源: HuggingFace Trending (3 upvotes)
链接: arXiv | PDF
关键贡献: 提出 R-MHSafe 角色感知心理健康安全分类法，以交互角色（施害者/教唆者/促进者/纵容者）定义伤害；MHSafeEval 闭环 agent 框架将安全评估建模为对抗多轮交互中的轨迹级伤害发现；揭示现有静态基准系统性遗漏的角色依赖和累积性安全失败
相关技术: role-aware safety taxonomy, adversarial multi-turn interaction, trajectory-level harm discovery, mental health LLM safety, closed-loop agent evaluation
代码/权重: 未提及

📄 Abstract 中文翻译

大语言模型 (LLM) 越来越多地被探索作为心理健康咨询的可扩展工具，但评估其安全性仍然具有挑战性，因为临床伤害的交互性和上下文依赖性。现有评估框架主要使用粗粒度分类法或静态数据集评估孤立响应，限制其诊断多轮咨询交互中伤害如何涌现和积累的能力。本文引入 R-MHSafe，一个角色感知的心理健康安全分类法，以 AI 咨询师采用的交互角色（包括施害者、教唆者、促进者或纵容者）结合临床依据的伤害类别来表征临床显著伤害。然后，我们提出 MHSafeEval，一个闭环的基于 agent 的评估框架，将安全评估建模为通过对抗多轮交互在角色感知建模指导下的轨迹级伤害发现。使用 R-MHSafe 和 MHSafeEval，我们在 SOTA LLM 上进行了大规模评估。结果揭示了现有静态基准系统性遗漏的大量角色依赖和累积性安全失败，并表明我们的框架显著改进了失败模式覆盖和诊断粒度。

ClawEnvKit: Automatic Environment Generation for Claw-Like Agents

从自然语言自动生成 Agent 环境：1,040 个环境 24 类别，成本降 13,800 倍

作者: Xirui Li, Ming Li, Derry Xu et al.
来源: HuggingFace Trending (17 upvotes)
链接: arXiv | PDF
关键贡献: 自动化环境生成管线，从自然语言描述实例化环境（解析器→生成器→验证器）；构建 Auto-ClawEval，首个大规模 claw-like agent 基准（1,040 环境/24 类别）；发现 harness 工程提升高达 15.7 个百分点，无模型饱和基准
相关技术: automated environment generation, natural language to environment, claw-like agent evaluation, harness engineering, on-demand training environment
代码/权重: 未提及

📄 Abstract 中文翻译

为训练和评估 claw-like agent 构建环境仍然是一个手动、人力密集且不可扩展的过程。我们认为需要的不仅是数据集，而是一个能按需生成多样化、经验证环境的自动化管线。为此，我们引入 ClawEnvKit，一个从自然语言描述实例化这一形式化的自主生成管线。管线包含三个模块：（1）解析器，从自然语言输入中提取结构化生成参数；（2）生成器，产生任务规范、工具接口和评分配置；（3）验证器，在生成环境中强制执行可行性、多样性、结构有效性和内部一致性。使用 ClawEnvKit，我们构建了 Auto-ClawEval，首个大规模 claw-like agent 基准，包含 24 个类别的 1,040 个环境。实证上，Auto-ClawEval 在连贯性和清晰度上匹敌或超越人工策划环境，成本降低 13,800 倍。在 4 个模型家族和 8 个 agent 框架上评估，我们发现框架工程比裸 ReAct 基线提升高达 15.7 个百分点，完成度仍然是主要变异轴且无模型饱和基准，自动化生成使以前不可行的规模评估成为可能。除静态基准测试外，ClawEnvKit 还支持实时评估：用户用自然语言描述所需能力并按需获取验证环境，将评估转变为持续的、用户驱动的过程。

Agents Explore but Agents Ignore: LLMs Lack Environmental Curiosity

LLM Agent 缺乏环境好奇心：发现解决方案却不去利用，AppWorld 中利用率不足 7%

作者: Leon Engländer, Sophia Althammer, Ahmet Üstün et al.
来源: HuggingFace Trending (5 upvotes)
链接: arXiv | PDF
关键贡献: 揭示 LLM agent 虽能发现环境中的意外信息但无法利用——AppWorld 中 90% 看到解决方案但利用率 <7%；识别环境好奇心的三个影响因素：工具可用性、测试时计算和训练数据分布；最大化好奇心的配置也取得最佳基准性能
相关技术: environmental curiosity, agent exploration-exploitation gap, tool scaffold design, test-time compute, unexpected information utilization
代码/权重: 未提及

📄 Abstract 中文翻译

基于 LLM 的 agent 被假设能将环境观察整合到其推理中：发现高度相关但意外的信息应该自然导致模型利用自身发现。我们表明这一假设对当前 LLM agent 是错误的，它们难以反映或对意外信息做出反应。在三个基准（Terminal-Bench、SWE-Bench、AppWorld）上，我们将完整任务解决方案注入 agent 环境中，故意暴露任务解决方案给模型。虽然 agent 在 Terminal-Bench 79-81% 的运行中发现解决方案，但仅在 37-50% 的情况下与之交互或利用。这一差距在 AppWorld 中最为明显：agent 在超过 90% 的尝试中看到说明某命令「返回此任务的完整解决方案」的文档，但在不到 7% 的试验中加以利用。我们表明 agent 缺乏我们所谓的环境好奇心：识别和调查环境中意外但相关观察的能力。我们识别出影响环境好奇心的三个主要因素：agent 框架中的可用工具、测试时计算和训练数据分布。我们的发现确定了最大化好奇心的配置也取得最佳基准性能。然而即使联合优化的 agent 仍在大多数试验中忽略发现的解决方案：当前 agent 使用环境获取预期信息，但不用于修订策略或最大化利用有用刺激。

Stratagem: Learning Transferable Reasoning via Trajectory-Modulated Game Self-Play

通过游戏自博弈学习可迁移推理：推理可迁移性系数 + 推理进化奖励突破领域特异性障碍

作者: Xiachong Feng, Deyi Yin, Xiaocheng Feng et al.
来源: HuggingFace Trending (4 upvotes)
链接: arXiv | PDF
关键贡献: 提出推理可迁移性系数，选择性强化展现抽象、领域无关推理的轨迹；推理进化奖励激励自适应推理发展；在竞赛级数学上取得特别强的提升
相关技术: game self-play, reasoning transferability coefficient, reasoning evolution reward, trajectory-modulated reinforcement, cross-domain reasoning
代码/权重: 未提及

📄 Abstract 中文翻译

游戏为在语言模型中开发通用推理能力提供了引人注目的范式，因为它们自然需要战略规划、概率推理和自适应决策。然而，现有的自博弈方法仅依赖终端博弈结果，没有机制区分可迁移推理模式和游戏特定启发式。我们提出 STRATAGEM，解决推理迁移的两个根本障碍：领域特异性（学习模式锚定在游戏语义中）和上下文静态性（静态游戏上下文无法培养渐进推理）。STRATAGEM 通过推理可迁移性系数选择性强化展现抽象、领域无关推理的轨迹，同时通过推理进化奖励激励自适应推理发展。跨数学推理、一般推理和代码生成基准的实验展示了实质性改进，在多步推理至关重要的竞赛级数学上提升尤为显著。消融研究和人类评估确认两个组件都贡献于可迁移推理。

The Amazing Agent Race: Strong Tool Users, Weak Navigators

Agent 会用工具但不会导航：DAG 结构基准揭示导航错误占 27-52%，远超工具使用错误

作者: Zae Myung Kim, Dongseok Lee, Jaehyung Kim et al.
来源: HuggingFace Trending (3 upvotes)
链接: arXiv | PDF
关键贡献: 分析六个现有基准发现 55-100% 实例为线性链，提出 DAG 结构基准 AAR；1,400 个实例覆盖顺序和组合变体；三种互补指标分别诊断导航、工具使用和算术失败；最佳模型仅 37.2% 准确率，导航错误占主导
相关技术: DAG tool chains, navigation error diagnosis, compositional agent evaluation, procedural benchmark generation, Wikipedia navigation
代码/权重: 未提及

📄 Abstract 中文翻译

现有的 LLM agent 工具使用基准绝大多数是线性的：我们对六个基准的分析显示 55-100% 的实例是 2-5 步的简单链。我们引入 The Amazing Agent Race (AAR)，一个具有有向无环图 (DAG) 谜题（或「赛段」）的基准，具有分叉-合并工具链。我们发布 1,400 个实例，涵盖两种变体：顺序型（800 赛段）和组合型（600 DAG 赛段）。Agent 必须导航 Wikipedia、执行多步工具链并将结果聚合为可验证的答案。赛段从 Wikipedia 种子在四个难度级别上程序化生成，具有实时 API 验证。三种互补指标（终点准确率、检查站访问率和路障完成率）分别诊断导航、工具使用和算术失败。在 1,400 个赛段上评估三个 agent 框架，最佳仅取得 37.2% 准确率。导航错误占主导（27-52% 的试验），而工具使用错误低于 17%，且 agent 架构与模型规模同样重要（Claude Code 以 6 倍少的 token 匹配 Codex CLI 的 37%）。AAR 的组合结构揭示了 agent 不是在调用工具时失败，而是在导航到正确页面时失败——这是线性基准看不见的盲点。

📌 其他值得关注

MM-JudgeBias: A Benchmark for Evaluating Compositional Biases in MLLM-as-a-Judge

MLLM 评判者中的组合偏差基准：1,800+ 样本诊断九种偏差类型，揭示系统性的模态忽视

作者: Sua Lee, Sanghee Park, Jinbae Im
来源: HuggingFace Trending (1 upvote)
链接: arXiv | PDF
关键贡献: 系统定义 MLLM-as-a-Judge 中的组合偏差，引入 MM-JudgeBias 基准；通过查询、图像和响应的控制扰动评估偏差-偏差度（BD）和偏差-从众度（BC）；在 26 个 SOTA MLLM 上揭示系统性模态忽视和不对称评估倾向
相关技术: compositional bias, MLLM-as-a-Judge, bias-deviation metric, bias-conformity metric, modality neglect diagnosis
代码/权重: 未提及

📄 Abstract 中文翻译

多模态大语言模型 (MLLM) 越来越多地被用作自动评估器——一种称为 MLLM-as-a-Judge 的范式。然而，其可靠性和对偏差的脆弱性仍未被充分探索。我们发现许多 MLLM 评判者无法可靠整合关键视觉或文本线索，在证据缺失或不匹配时产生不可靠评估，并在语义无关扰动下表现出不稳定性。为解决这一问题，我们系统定义了 MLLM-as-a-Judge 系统中的组合偏差，并引入 MM-JudgeBias 用于评估。MM-JudgeBias 在查询、图像和响应中引入控制扰动，通过两个互补指标评估模型行为：偏差-偏差度 (BD) 衡量敏感性和偏差-从众度 (BC) 衡量稳定性。我们超过 1,800 个策划和精炼的多模态样本数据集来自 29 个源基准，能够在多样化任务和领域中细粒度诊断九种偏差类型。在 26 个 SOTA MLLM 上的实验揭示了系统性模态忽视和不对称评估倾向，强调了对更可靠评判者的需求。

LLM Safety From Within: Detecting Harmful Content with Internal Representations

SIREN：利用 LLM 内部安全神经元检测有害内容，参数量仅 1/250 却超越开源守卫模型

作者: Difan Jiao, Yilun Liu, Ye Yuan et al.
来源: HuggingFace Trending (0 upvotes)
链接: arXiv | PDF
关键贡献: 通过线性探测识别安全神经元，自适应层加权策略组合构建有害性检测器；参数量仅为 SOTA 开源守卫模型的 1/250；天然支持实时流式检测，推理效率显著优于生成式守卫模型
相关技术: internal safety neurons, linear probing, adaptive layer weighting, streaming detection, lightweight guard model
代码/权重: 未提及

📄 Abstract 中文翻译

守卫模型广泛用于检测用户提示和 LLM 响应中的有害内容。然而，SOTA 守卫模型仅依赖终端层表示，忽视了分布在内部层中的丰富安全相关特征。我们提出 SIREN，一个利用这些内部特征的轻量级守卫模型。通过线性探测识别安全神经元，并通过自适应层加权策略组合，SIREN 从 LLM 内部构建有害性检测器，无需修改底层模型。我们的综合评估显示，SIREN 在多个基准上实质性超越 SOTA 开源守卫模型，同时仅使用 250 分之一的可训练参数。此外，SIREN 展现出对未见基准的优越泛化能力，天然支持实时流式检测，且推理效率相比生成式守卫模型显著提升。

免训练 LLM 早期退出框架：KV 共享退出河解决缓存缺失，实现 1.71-2.16x 实际加速

作者: Yingtao Shen, An Zou
来源: HuggingFace Trending (2 upvotes)
链接: arXiv | PDF
关键贡献: 提出免训练的 KV-Shared Exit River，在退出过程中自然生成和保留缺失的 KV 缓存；利用解码器块内的状态转移相似性预测累积 KV 误差指导精确退出决策；在数学推理和代码生成任务上实现 1.71-2.16 倍的实际加速
相关技术: early exit, KV cache sharing, state transition similarity, token-level exit decision, training-free acceleration
代码/权重: 未提及

📄 Abstract 中文翻译

大语言模型 (LLM) 在多个领域展现了卓越性能，但越来越受限于高推理延迟。早期退出 (Early Exit) 已成为通过动态跳过冗余层来加速推理的有前途解决方案。然而，在仅解码器架构中，早期退出的效率严重受 KV 缓存缺失问题瓶颈——跳过的层无法为后续 token 提供必要的历史状态。现有解决方案如重计算或掩码，要么引入显著延迟开销，要么导致严重精度损失，未能弥合理论层减少与实际加速之间的差距。本文提出 River-LLM，一个免训练框架，实现无缝 token 级早期退出。River-LLM 引入轻量级 KV 共享退出河，允许骨干网络的缺失 KV 缓存在退出过程中自然生成和保留，消除昂贵的恢复操作。此外，我们利用解码器块内的状态转移相似性来预测累积 KV 误差并指导精确退出决策。在数学推理和代码生成任务上的广泛实验表明，River-LLM 在保持高生成质量的同时实现了 1.71-2.16 倍的实际加速。

Generated on 2026-04-22T00:00:00Z | Sources: HuggingFace