AI Paper Daily | 2026-04-12

今日概览

共收录 18 篇论文 | Audio LLM: 1篇 | LLM Training: 7篇 | AI Agents: 4篇 | 其他: 2篇 来源: HuggingFace(18)

⚠️ 本日 arXiv API 因限流未返回结果,论文均来自 HuggingFace Trending。经与过去 7 天去重后,30 篇预筛选论文中仅 1 篇为新论文,其余 29 篇已在 4 月 11 日日报中收录。本日报告从 raw_papers 中重新筛选未报道的高分论文补充。

重点推荐 ⭐

When Numbers Speak: Aligning Textual Numerals and Visual Instances in Text-to-Video Diffusion Models

无需训练即可让文生视频模型生成正确数量的物体——通过识别并引导注意力头实现数值对齐

  • 作者: Zhengyang Sun et al.
  • 来源: HuggingFace Trending (107 upvotes)
  • 链接: arXiv | PDF
  • 关键贡献: 提出 NUMINA 框架,在推理时通过选择判别性自注意力和交叉注意力头推导可计数潜在布局,再通过交叉注意力调制引导重新生成。无需训练,即插即用,在 CountBench 上将计数准确率提升高达 7.4%。
  • 相关技术: cross-attention modulation, countable latent layout, text-to-video numerical alignment
  • 代码/权重: 已开源 ✅
📄 Abstract 中文翻译

文生视频扩散模型已经实现了开放式视频合成,但往往难以生成提示中指定正确数量的物体。我们提出 NUMINA,一个无需训练的"识别-引导"框架,用于改善数值对齐。NUMINA 通过选择判别性自注意力和交叉注意力头来推导可计数潜在布局,从而识别提示-布局的不一致性;然后保守地优化该布局,并通过交叉注意力调制引导重新生成。在本文提出的 CountBench 上,NUMINA 在 Wan2.1-1.3B 上将计数准确率提升了 7.4%,在 5B 和 14B 模型上分别提升了 4.9% 和 5.5%。此外,CLIP 对齐度也有所改善,同时保持了时间一致性。这些结果表明,结构化引导可以补充种子搜索和提示增强,为实现计数准确的文生视频扩散提供了一条实用路径。


MARS: Enabling Autoregressive Models Multi-Token Generation

轻量微调让自回归模型一次生成多个 token,1.5-1.7 倍吞吐提升且精度无损

  • 作者: Ziqi Jin et al.
  • 来源: HuggingFace Trending (29 upvotes)
  • 链接: arXiv | PDF
  • 关键贡献: 提出 MARS(Mask AutoRegression),仅通过在已有指令数据上继续训练,无需修改架构或增加参数,即可让 AR 模型每步预测多个 token。支持通过置信度阈值实时调整速度,为部署提供实用的延迟-质量调节旋钮。
  • 相关技术: mask autoregression, multi-token prediction, block-level KV cache, confidence thresholding
  • 代码/权重: 未提及
📄 Abstract 中文翻译

自回归(AR)语言模型逐 token 生成文本,即使连续 token 在给定前文的情况下高度可预测。我们提出 MARS(Mask AutoRegression),一种轻量微调方法,教会指令微调后的 AR 模型每次前向传播预测多个 token。MARS 不添加任何架构修改、不增加额外参数,且产出的单一模型仍可完全按原始 AR 模型调用,无性能退化。与投机解码(需额外草稿模型)或多头方法如 Medusa(需附加预测头)不同,MARS 仅需在现有指令数据上继续训练。当每步生成一个 token 时,MARS 在六个标准基准上匹配或超过 AR 基线;当允许每步接受多个 token 时,在保持基线精度的同时实现 1.5-1.7 倍吞吐。我们进一步开发了批量推理的 block-level KV 缓存策略,在 Qwen2.5-7B 上实现高达 1.71 倍的 wall-clock 加速。最后,MARS 支持通过置信度阈值实时调速:在高请求负载下,服务系统无需更换模型或重启即可动态提升吞吐。


GameWorld: Towards Standardized and Verifiable Evaluation of Multimodal Game Agents

34 款游戏、170 个任务的可验证多模态游戏智能体基准——当前最强模型也远不及人类

  • 作者: Mingyu Ouyang et al.
  • 来源: HuggingFace Trending (7 upvotes)
  • 链接: arXiv | PDF
  • 关键贡献: 提出 GameWorld 基准,在浏览器环境中研究两种智能体接口(computer-use 与语义动作空间),每个任务配备状态可验证指标。18 个模型-接口组合的评测表明最佳智能体远未达到人类水平,同时揭示了实时交互和上下文记忆的关键挑战。
  • 相关技术: semantic action parsing, computer-use agent, state-verifiable evaluation, game benchmarking
  • 代码/权重: 已开源 ✅
📄 Abstract 中文翻译

迈向现实世界交互的具身通用智能体,多模态大语言模型(MLLM)智能体仍面临延迟挑战、稀疏反馈和不可逆错误等问题。视频游戏提供了理想测试平台,具有丰富的视觉观察和闭环交互,要求细粒度感知、长程规划和精确控制。然而,系统性地评估这些能力目前受限于异构的动作接口和启发式验证。为此,我们提出 GameWorld,一个专为 MLLM 作为通用游戏智能体在浏览器环境中进行标准化和可验证评估而设计的基准。研究两种游戏智能体接口:(i) 直接发出键盘鼠标控制的 computer-use 智能体,(ii) 通过确定性语义动作解析在语义动作空间中操作的通用多模态智能体。GameWorld 包含 34 款多样化游戏和 170 个任务,每个任务配备状态可验证指标用于结果评估。18 个模型-接口组合的结果表明,即使是表现最好的智能体也远未达到人类在视频游戏上的能力。大量重复完整基准运行实验证明了基准的鲁棒性,而关于实时交互、上下文记忆敏感性和动作有效性的进一步研究揭示了游戏智能体面临的更多挑战。


Flux Attention: Context-Aware Hybrid Attention for Efficient LLMs Inference

轻量 Layer Router 动态路由每层注意力类型,prefill 加速 2.8x、decode 加速 2.0x

  • 作者: Quantong Qiu et al.
  • 来源: HuggingFace Trending (10 upvotes)
  • 链接: arXiv | PDF
  • 关键贡献: 提出 Flux Attention,在冻结的预训练 LLM 中集成轻量 Layer Router,根据输入上下文自适应地将每层路由到全注意力或稀疏注意力。层级别路由保持连续内存访问,将理论计算减少转化为实际 wall-clock 加速。仅需 8×A800 训练 12 小时。
  • 相关技术: layer router, hybrid attention, sparse attention, context-aware routing
  • 代码/权重: 未提及
📄 Abstract 中文翻译

标准注意力机制的二次计算复杂度在长上下文场景下给 LLM 带来了严重的可扩展性瓶颈。虽然结合全注意力(FA)和稀疏注意力(SA)的混合注意力机制提供了潜在解决方案,但现有方法通常依赖静态分配比例,无法适应不同任务的可变检索需求。此外,head 级别动态稀疏性常常引入严重的计算负载不均衡和同步长尾问题,阻碍了自回归解码期间的硬件加速。为弥合这一差距,我们提出 Flux Attention,一个在层级别动态优化注意力计算的上下文感知框架。通过在冻结的预训练 LLM 中集成轻量 Layer Router,该方法根据输入上下文自适应地将每层路由到 FA 或 SA。这种层级别路由在保持高保真信息检索的同时确保连续内存访问,将理论计算减少转化为实际的 wall-clock 加速。作为一种参数高效的方法,我们的框架仅需 8×A800 GPU 上 12 小时的训练。在多个长上下文和数学推理基准上的大量实验表明,Flux Attention 在性能和推理速度之间实现了优越的权衡,在 prefill 和 decode 阶段分别实现高达 2.8 倍和 2.0 倍的加速。


🔊 Audio LLM

Cross-Modal Emotion Transfer for Emotion Editing in Talking Face Video

跨模态情感语义向量实现说话人面部情感编辑,情感准确率提升 14%

  • 作者: Chanhyuk Choi et al.
  • 来源: HuggingFace Trending (1 upvotes)
  • 链接: arXiv | PDF
  • 关键贡献: 提出 C-MET 方法,通过建模语音和视觉特征空间之间的情感语义向量来实现跨模态情感迁移。利用大规模预训练音频编码器和解耦的面部表情编码器学习情感语义向量,解决了语音中情感与语言内容纠缠的问题,即使对未见过的扩展情感(如讽刺)也能生成表达性说话人面部视频。
  • 相关技术: cross-modal emotion transfer, disentangled expression encoding, emotion semantic vector, talking face
  • 代码/权重: 已开源 ✅
📄 Abstract 中文翻译

说话人面部生成作为生成模型的核心应用已获得显著关注。为增强合成视频的表现力和真实感,说话人面部视频中的情感编辑发挥着关键作用。然而,现有方法通常限制了表达灵活性,且难以生成扩展情感。基于标签的方法用离散类别表示情感,无法捕捉广泛的情感范围。基于音频的方法可以利用情感丰富的语音信号,甚至从表现力强的 TTS 合成中受益,但它们无法表达目标情感,因为情感和语言内容在情感语音中是纠缠的。基于图像的方法则需要高质量正面视角的目标参考图像,且在获取扩展情感(如讽刺)的参考数据时面临挑战。为解决这些局限,我们提出跨模态情感迁移(C-MET),一种通过建模语音和视觉特征空间之间情感语义向量来基于语音生成面部表情的新方法。C-MET 利用大规模预训练音频编码器和解耦的面部表情编码器学习情感语义向量,该向量表示跨模态两种不同情感嵌入之间的差异。在 MEAD 和 CREMA-D 数据集上的大量实验表明,我们的方法将情感准确率比最先进方法提升了 14%,同时生成表现力丰富的说话人面部视频——即使对未见过的扩展情感也是如此。


🧠 LLM Training

Personalized RewardBench: Evaluating Reward Models with Human Aligned Personalization

首个个性化奖励模型基准——SOTA 奖励模型的个性化准确率仅 75.94%

  • 作者: Qiyao Ma et al.
  • 来源: HuggingFace Trending (7 upvotes)
  • 链接: arXiv | PDF
  • 关键贡献: 提出 Personalized RewardBench,首个评估奖励模型个性化偏好的基准。通过严格遵循或违反用户特定评分标准构建 chosen/rejected 对,人工评估确认对间的主要区分因素严格为个人偏好。该基准与 BoN 采样和 PPO 下游性能的相关性显著高于现有基线。
  • 相关技术: personalized reward model, pluralistic alignment, Best-of-N correlation, PPO downstream
  • 代码/权重: 未提及
📄 Abstract 中文翻译

多元对齐已成为大语言模型开发中的关键前沿,奖励模型(RM)作为捕捉多元人类价值观的核心机制。虽然通用响应质量基准很普遍,但评估奖励模型在多大程度上考虑个体用户偏好仍是一个开放挑战。为弥合这一差距,我们提出 Personalized RewardBench,一个旨在严格评估奖励模型建模个性化偏好能力的新基准。我们基于严格遵循(或违反)用户特定评分标准构建 chosen 和 rejected 响应对,确保偏好区分是针对个人独特定制的。特别是,人工评估确认对之间的主要区分因素严格为个人偏好,两个响应均保持高通用质量(如正确性、相关性和有用性)。大量测试揭示现有最先进奖励模型在个性化方面挣扎显著,准确率峰值仅为 75.94%。关键是,由于有效的奖励模型基准应预测奖励模型在下游任务上的表现,我们进行实验证明,与现有基线相比,我们的基准在 Best-of-N(BoN)采样和近端策略优化(PPO)中与下游性能展现出显著更高的相关性。


On the Step Length Confounding in LLM Reasoning Data Selection

揭示基于自然度的数据选择偏好长推理步而非高质量——提出 ASLEC 去偏方法

  • 作者: Bing Wang et al.
  • 来源: HuggingFace Trending (3 upvotes)
  • 链接: arXiv | PDF
  • 关键贡献: 发现"步长混淆"现象——基于平均对数概率的自然度数据选择方法在推理数据集上系统性地偏好推理步更长(每步更多 token)的样本而非更高质量的样本,原因是长步稀释了低概率首 token 的影响。提出 ASLEC-DROP 和 ASLEC-CASL 两种去偏方法。
  • 相关技术: step length confounding, average log probability, first-token debiasing, data selection
  • 代码/权重: 未提及
📄 Abstract 中文翻译

大型推理模型近期通过在高质量大规模数据集上进行监督微调,在需要长链式思维推理的复杂任务上展现了强劲表现。为构建此类数据集,现有流水线从更强大的大语言模型生成长推理数据,并应用手动启发式或基于自然度的选择方法过滤高质量样本。尽管基于自然度的数据选择(按 LLM 分配的平均对数概率排序数据)已被证明有效,但我们的分析表明,当应用于 LLM 推理数据集时,它系统性地偏好推理步更长的样本(即每步更多 token)而非更高质量的样本,我们称之为"步长混淆"现象。通过定量分析,我们将此现象归因于推理步中的低概率首 token;更长的步稀释了它们的影响,从而抬高了平均对数概率。为解决这一问题,我们提出两种变体方法:ASLEC-DROP,在计算平均对数概率时丢弃首 token 概率;ASLEC-CASL,应用因果去偏回归消除首 token 的混淆效应。在四个 LLM 和五个评估基准上的实验证明了我们方法在缓解步长混淆问题上的有效性。


Faithful GRPO: Improving Visual Spatial Reasoning in Multimodal Language Models via Constrained Policy Optimization

将推理一致性和视觉基础作为约束引入 GRPO,不一致率从 24.5% 降至 1.7%

  • 作者: Sai Srinivas Kancheti et al.
  • 来源: HuggingFace Trending (4 upvotes)
  • 链接: arXiv | PDF
  • 关键贡献: 发现 GRPO 训练的 MRM 准确率提升常以推理质量为代价——CoT 与最终答案不一致且视觉基础差。提出 FGRPO,通过拉格朗日对偶上升将一致性和基础约束纳入优势计算,在组内自适应调整约束权重。不一致率从 24.5% 降至 1.7%,视觉基础分数提升 13%。
  • 相关技术: Lagrangian dual ascent, visual grounding constraint, logical consistency, GRPO variant
  • 代码/权重: 未提及
📄 Abstract 中文翻译

通过可验证奖励的强化学习(RLVR)训练的多模态推理模型(MRM)在视觉推理基准上展现了准确率提升。然而,我们观察到准确率增益常常以推理质量为代价:生成的链式思维(CoT)轨迹经常与最终答案不一致,且与视觉证据的基础薄弱。我们在七个具有挑战性的真实空间推理基准上系统研究了这一现象,发现它影响当代 MRM,如 ViGoRL-Spatial、TreeVGR 以及我们用标准 GRPO 训练的模型。我们沿两个互补轴刻画 CoT 推理质量:“逻辑一致性”(CoT 是否蕴含最终答案?)和"视觉基础"(每个推理步骤是否准确描述图像中的物体、属性和空间关系?)。为此,我们提出 Faithful GRPO(FGRPO),一种 GRPO 变体,通过拉格朗日对偶上升将一致性和基础作为约束强制执行。FGRPO 在组内优势计算中引入批次级别的一致性和基础约束,在优化过程中自适应调整约束的相对重要性。我们在 Qwen2.5-VL-7B 和 3B 骨干网络上的七个空间数据集上评估 FGRPO。结果表明 FGRPO 大幅提升推理质量,将不一致率从 24.5% 降至 1.7%,视觉基础分数提升 13%,同时相比简单 GRPO 提升最终答案准确率。


FP4 Explore, BF16 Train: Diffusion Reinforcement Learning via Efficient Rollout Scaling

FP4 生成候选 + BF16 精选训练,扩散 RL 训练加速 4.64 倍且质量不降

  • 作者: Yitong Li et al.
  • 来源: HuggingFace Trending (14 upvotes)
  • 链接: arXiv | PDF
  • 关键贡献: 提出 Sol-RL 框架,将 FP4 量化引入扩散模型 RL 训练的 rollout 阶段。第一阶段用 NVFP4 高吞吐量生成大规模候选池并提取高对比度子集;第二阶段以 BF16 精度重新生成选中的样本并仅在其上优化策略。解耦候选探索与策略优化,在 SANA、FLUX.1 和 SD3.5-L 上验证。
  • 相关技术: NVFP4 quantization, two-stage RL, rollout scaling, diffusion RL alignment
  • 代码/权重: 未提及
📄 Abstract 中文翻译

基于强化学习的后训练近期已成为将文生图扩散模型与人类偏好对齐的有前途范式。近期研究表明,增加 rollout 组大小可带来显著的性能提升,表明还有大量对齐增益空间。然而,在大规模基础扩散模型(如 FLUX.1-12B)上扩展 rollout 施加了沉重的计算负担。为缓解这一瓶颈,我们探索将 FP4 量化集成到扩散 RL rollout 中。然而,我们发现朴素量化流水线固有地引入性能退化风险。为克服效率与训练完整性之间的困境,我们提出 Sol-RL(Speed-of-light RL),一种 FP4 赋能的两阶段强化学习框架。首先,利用高吞吐量 NVFP4 rollout 生成大规模候选池并提取高对比度子集。其次,以 BF16 精度重新生成这些选中的样本并仅在其上优化策略。通过解耦候选探索与策略优化,Sol-RL 将 rollout 扩展的算法机制与 NVFP4 的系统级吞吐量增益相结合。这种协同的算法-硬件设计有效加速 rollout 阶段,同时为优化保留高保真样本。我们经验性地证明,该框架保持了 BF16 精度流水线的训练完整性,同时充分利用 FP4 算术带来的吞吐量增益。在 SANA、FLUX.1 和 SD3.5-L 上的大量实验证实,我们的方法在多个指标上实现了优越的对齐性能,同时将训练收敛加速高达 4.64 倍,以部分成本释放大规模 rollout 扩展的力量。


FlowInOne: Unifying Multimodal Generation as Image-in, Image-out Flow Matching

将所有模态统一为视觉 prompt,单一流匹配模型统一文生图、布局编辑和指令跟随

  • 作者: Junchao Yi et al.
  • 来源: HuggingFace Trending (7 upvotes)
  • 链接: arXiv | PDF
  • 关键贡献: 挑战文本驱动生成范式,将所有输入(文本描述、空间布局、编辑指令)统一为视觉 prompt,实现纯 image-in, image-out 流水线。引入 VisPrompt-5M 数据集和 VP-Bench 基准,在所有统一生成任务上超越开源模型和商业系统。
  • 相关技术: visual prompt unification, flow matching, image-in image-out, cross-modal alignment
  • 代码/权重: 未提及
📄 Abstract 中文翻译

多模态生成长期以来被文本驱动流水线主导,语言指示视觉但无法在其中推理或创造。我们挑战这一范式,提出所有模态(包括文本描述、空间布局和编辑指令)是否可以统一为单一视觉表示。我们提出 FlowInOne,一个将多模态生成重新表述为纯视觉流的框架,将所有输入转换为视觉 prompt,实现由单一流匹配模型管理的干净的 image-in, image-out 流水线。这种以视觉为中心的表述自然消除了跨模态对齐瓶颈、噪声调度和任务特定架构分支,在一个连贯范式下统一了文生图、布局引导编辑和视觉指令跟随。为此,我们引入 VisPrompt-5M,一个包含 500 万视觉 prompt 对的大规模数据集,涵盖多种任务包括物理感知力动力学和轨迹预测,以及 VP-Bench,一个精心策划的基准评估指令忠实度、空间精度、视觉真实感和内容一致性。大量实验表明,FlowInOne 在所有统一生成任务上实现了最先进性能,超越开源模型和竞争性商业系统,为完全以视觉为中心的生成建模建立了新基础。


The Art of (Mis)alignment: How Fine-Tuning Methods Effectively Misalign and Realign LLMs in Post-Training

ORPO 最适合恶意去对齐,DPO 最适合重新对齐——攻击与防御存在机制不对称

  • 作者: Rui Zhang et al.
  • 来源: HuggingFace Trending (0 upvotes)
  • 链接: arXiv | PDF
  • 关键贡献: 系统研究 4 种 SFT 和 2 种 PFT 方法在恶意去对齐和重新对齐中的效果差异,揭示攻击与防御的机制不对称性:ORPO 最适合去对齐,DPO 擅长重新对齐但以模型实用性为代价。还发现模型特定抗性、多轮对抗动态的残余效应等。
  • 相关技术: ORPO misalignment, DPO realignment, safety fine-tuning, preference optimization
  • 代码/权重: 已开源 ✅
📄 Abstract 中文翻译

大语言模型的部署引发了重大的伦理和安全关切。虽然采用 LLM 对齐技术来提高模型安全性和可信度,但对手可以利用这些技术为恶意目的破坏安全性,导致去对齐。去对齐的 LLM 可能在开放平台上发布以放大危害。为此,在部署不受信任的第三方 LLM 之前,额外的安全对齐(称为重新对齐)是必要的。本研究探索了微调方法在去对齐、重新对齐及其交互效应方面的有效性。通过在四个流行的安全对齐 LLM 上评估四种监督微调(SFT)和两种偏好微调(PFT)方法,我们揭示了攻击与防御之间的机制不对称。ORPO(赔率比偏好优化)对去对齐最有效,而 DPO(直接偏好优化)擅长重新对齐,但以模型实用性为代价。此外,我们发现了模型特定抗性、多轮对抗动态的残余效应以及其他值得注意的发现。这些发现强调了对稳健防护措施和定制化安全对齐策略的需求,以缓解 LLM 部署中的潜在风险。


AgentGL: Towards Agentic Graph Learning with LLMs via Reinforcement Learning

首个 RL 驱动的图学习智能体框架,节点分类提升 17.5%、链接预测提升 28.4%

  • 作者: Yuanfu Sun et al.
  • 来源: HuggingFace Trending (5 upvotes)
  • 链接: arXiv | PDF
  • 关键贡献: 提出 AgentGL,首个 RL 驱动的智能体图学习框架,将图学习重构为拓扑感知导航与 LLM 推理的交错过程。配备图原生工具进行多尺度探索,通过搜索约束思维调节工具使用,采用图条件课程 RL 策略稳定长程策略学习。
  • 相关技术: graph-native tool, topology-aware navigation, graph-conditioned curriculum RL, text-attributed graph
  • 代码/权重: 已开源 ✅
📄 Abstract 中文翻译

大语言模型日益依赖智能体能力——迭代检索、工具使用和决策——以克服静态参数化知识的局限。然而,现有智能体框架将外部信息视为非结构化文本,未能利用现实世界数据固有的拓扑依赖性。为弥合这一差距,我们引入智能体图学习(AGL),一种将图学习重构为拓扑感知导航与基于 LLM 的推理交错过程的范式。具体而言,我们提出 AgentGL,首个 RL 驱动的 AGL 框架。AgentGL 为 LLM 智能体配备用于多尺度探索的图原生工具,通过搜索约束思维调节工具使用以平衡准确性和效率,并采用图条件课程 RL 策略在无逐步监督的情况下稳定长程策略学习。在多种文本属性图(TAG)基准和多个 LLM 骨干网络上,AgentGL 大幅优于强 GraphLLM 和 GraphRAG 基线,在节点分类和链接预测上分别实现高达 17.5% 和 28.4% 的绝对提升。


🤖 AI Agents

SUPERGLASSES: Benchmarking Vision Language Models as Intelligent Agents for AI Smart Glasses

首个基于智能眼镜真实数据采集的 VQA 基准,提出 SUPERLENS 智能体超越 GPT-4o

  • 作者: Zhuohang Jiang et al.
  • 来源: HuggingFace Trending (0 upvotes)
  • 链接: arXiv | PDF
  • 关键贡献: 提出 SUPERGLASSES,首个完全由智能眼镜设备采集真实数据构建的 VQA 基准,包含 2,422 个自我中心图像-问题对。进一步提出 SUPERLENS 多模态智能眼镜智能体,集成自动目标检测、查询解耦和多模态网络搜索,超越 GPT-4o 2.19%。
  • 相关技术: egocentric VQA, object detection, query decoupling, retrieval-augmented generation
  • 代码/权重: 已开源 ✅
📄 Abstract 中文翻译

AI 驱动的智能眼镜——最热门的可穿戴设备之一——的快速发展,为多模态交互解锁了新前沿,其中基于外部知识源的视觉问答(VQA)成为核心应用。适配智能眼镜的现有视觉语言模型通常在传统多模态数据集上训练和评估;然而,这些数据集缺乏反映智能眼镜使用场景所需的多样性和真实性,且与其特定挑战不同,在这些场景中准确识别兴趣对象必须先于任何外部知识检索。为弥合这一差距,我们提出 SUPERGLASSES,首个完全由智能眼镜设备采集真实数据构建的综合 VQA 基准。SUPERGLASSES 包含 2,422 个自我中心图像-问题对,涵盖 14 个图像领域和 8 个查询类别,配有完整搜索轨迹和推理标注。我们在此基准上评估了 26 个代表性 VLM,揭示了显著性能差距。为解决现有模型的局限,我们进一步提出 SUPERLENS,一种多模态智能眼镜智能体,通过集成自动目标检测、查询解耦和多模态网络搜索实现检索增强的答案生成。SUPERLENS 实现了最先进性能,超越 GPT-4o 2.19%。


PokeGym: A Visually-Driven Long-Horizon Benchmark for Vision-Language Models

在宝可梦 3D 开放世界中评测 VLM——物理死锁恢复而非高级规划是主要瓶颈

  • 作者: Ruizhi Zhang et al.
  • 来源: HuggingFace Trending (3 upvotes)
  • 链接: arXiv | PDF
  • 关键贡献: 提出 PokeGym,在宝可梦传说 Z-A 的复杂 3D 开放世界 RPG 中评测 VLM 的长程视觉决策能力。发现物理死锁恢复(而非高级规划)是主要瓶颈,且弱模型多为"无意识死锁"而强模型为"有意识死锁"——知道被困但无法恢复。
  • 相关技术: physical deadlock recovery, visually-driven benchmark, long-horizon decision-making, metacognitive divergence
  • 代码/权重: 未提及
📄 Abstract 中文翻译

虽然视觉语言模型(VLM)在静态视觉理解方面取得了显著进展,但其在复杂 3D 具身环境中的部署仍严重受限。现有基准存在四个关键缺陷:(1) 被动感知任务回避了交互动态;(2) 简化的 2D 环境无法评估深度感知;(3) 特权状态泄露绕过了真正的视觉处理;(4) 人工评估成本过高且不可扩展。我们提出 PokeGym,一个在宝可梦传说 Z-A(视觉复杂的 3D 开放世界 RPG)中实例化的视觉驱动长程基准。PokeGym 强制严格的代码级隔离:智能体仅操作原始 RGB 观察,而独立评估器通过内存扫描验证成功,确保纯视觉决策和自动化可扩展评估。该基准包含 30 个任务(30-220 步),涵盖导航、交互和混合场景,具有三种指令粒度(视觉引导、步骤引导、仅目标)以系统性地解构视觉基础、语义推理和自主探索能力。我们的评估揭示了当前 VLM 的一个关键局限:物理死锁恢复(而非高级规划)构成了主要瓶颈,死锁与任务成功率呈强负相关。此外,我们发现了一种元认知分歧:较弱模型主要遭受无意识死锁(对困境毫无察觉),而高级模型表现出有意识死锁(意识到困境但无法恢复)。这些发现强调需要将显式空间直觉集成到 VLM 架构中。


Context-Value-Action Architecture for Value-Driven Large Language Model Agents

解耦行动生成与认知推理,用真实人类数据训练 Value Verifier 缓解价值极化

  • 作者: TianZe Zhang et al.
  • 来源: HuggingFace Trending (3 upvotes)
  • 链接: arXiv | PDF
  • 关键贡献: 发现增强 prompt 驱动推理不提升反而加剧价值极化、坍缩群体多样性。提出 CVA 架构,基于 S-O-R 模型和 Schwartz 基本人类价值理论,通过在真实人类数据上训练的 Value Verifier 解耦行动生成与认知推理,在 110 万真实交互轨迹上显著优于基线。
  • 相关技术: Value Verifier, S-O-R model, value polarization, Schwartz human values
  • 代码/权重: 未提及
📄 Abstract 中文翻译

大语言模型在模拟人类行为方面展现了潜力,但现有智能体常表现出行为刚性,这一缺陷被当前"LLM-as-a-judge"评估的自参照偏差所掩盖。通过与实证真相对照评估,我们揭示了一个反直觉现象:增加 prompt 驱动推理的强度并不提升保真度,反而加剧价值极化,坍缩群体多样性。为解决此问题,我们提出 Context-Value-Action(CVA)架构,基于刺激-有机体-响应(S-O-R)模型和 Schwartz 基本人类价值理论。与依赖自我验证的方法不同,CVA 通过在真实人类数据上训练的新颖 Value Verifier 解耦行动生成与认知推理,显式建模动态价值激活。在包含超过 110 万真实世界交互轨迹的 CVABench 上,CVA 显著优于基线方法。我们的方法有效缓解极化,同时提供优越的行为保真度和可解释性。


How Far Are Large Multimodal Models from Human-Level Spatial Action?

城市 3D 空间导航评测——导航误差在关键分岔点后急剧发散

  • 作者: Baining Zhao et al.
  • 来源: HuggingFace Trending (0 upvotes)
  • 链接: arXiv | PDF
  • 关键贡献: 耗时 500+ 小时构建 5,037 个城市 3D 空间目标导航样本,评测 17 个模型。发现导航误差并非线性累积,而是在关键决策分岔点后急剧发散。探索了几何感知、跨视角理解、空间想象和长期记忆四个改进方向。
  • 相关技术: 3D urban navigation, decision bifurcation, spatial imagination, vertical action
  • 代码/权重: 已开源 ✅
📄 Abstract 中文翻译

大多模态模型展现了强大的视觉-语言推理能力,但其空间决策和行动能力仍不明确。本研究探讨大多模态模型能否通过具身空间行动达到人类水平,以城市 3D 空间目标导航为挑战场景。我们首先花费 500 多小时构建包含 5,037 个高质量目标导向导航样本的数据集,强调 3D 垂直动作和丰富的城市语义信息。然后,我们全面评估 17 个代表性模型,包括非推理 LMM、推理 LMM、基于智能体的方法和视觉-语言-动作模型。实验表明当前 LMM 展现了新兴动作能力,但仍远未达到人类水平。此外,我们揭示了一个有趣现象:导航误差并非线性累积,而是在关键决策分岔点后从目的地急剧发散。通过分析 LMM 在这些关键决策分岔点的行为来调查其局限。最后,我们实验性地探索了四个有前景的改进方向:几何感知、跨视角理解、空间想象和长期记忆。


📌 其他值得关注

MoRight: Motion Control Done Right

解耦物体运动与摄像机视角 + 建模运动因果性,支持正向推理和逆向推理

  • 作者: Shaowei Liu et al.
  • 来源: HuggingFace Trending (3 upvotes)
  • 链接: arXiv | PDF
  • 关键贡献: 提出 MoRight 统一框架,解耦运动控制:物体运动在标准静态视角指定后通过时间交叉视角注意力迁移到任意摄像机视角。进一步将运动分解为主动(用户驱动)和被动(结果)组件,学习运动因果性。支持正向推理(给定主动运动预测后果)和逆向推理(指定被动结果反推驱动动作)。
  • 相关技术: disentangled motion modeling, temporal cross-view attention, motion causality, inverse reasoning
  • 代码/权重: 未提及
📄 Abstract 中文翻译

生成运动控制视频——用户指定动作驱动物理合理的场景动态,并自由选择视角——需要两种能力:(1) 解耦运动控制,允许用户分别控制物体运动和调整摄像机视角;(2) 运动因果性,确保用户驱动的动作触发其他物体的连贯反应而非仅仅位移像素。现有方法在这两方面均有不足:将摄像机和物体运动纠缠为单一跟踪信号,并将运动视为运动学位移而不建模物体间运动的因果关系。我们提出 MoRight,一个通过解耦运动建模解决这两个局限的统一框架。物体运动在标准静态视角中指定,通过时间交叉视角注意力迁移到任意目标摄像机视角,实现解耦的摄像机和物体控制。我们进一步将运动分解为主动(用户驱动)和被动(结果)组件,训练模型从数据中学习运动因果性。推理时,用户可以提供主动运动让 MoRight 预测后果(正向推理),或指定期望的被动结果让 MoRight 恢复合理的驱动动作(逆向推理),同时自由调整摄像机视角。三个基准上的实验证明了在生成质量、运动可控性和交互感知方面的最先进性能。


Scal3R: Scalable Test-Time Training for Large-Scale 3D Reconstruction

测试时自适应的长视频大规模 3D 重建,通过神经全局上下文表示扩展记忆容量

  • 作者: Tao Xie et al.
  • 来源: HuggingFace Trending (0 upvotes)
  • 链接: arXiv | PDF
  • 关键贡献: 提出神经全局上下文表示,高效压缩和保留长程场景信息。通过轻量子网络在测试时快速自适应,以自监督目标大幅增加记忆容量而不产生显著计算开销。在 KITTI 和 Oxford Spires 上实现领先的位姿精度和最先进的 3D 重建精度。
  • 相关技术: test-time training, neural global context, long-range scene compression, self-supervised adaptation
  • 代码/权重: 已开源 ✅
📄 Abstract 中文翻译

本文研究从长视频序列进行大规模 3D 场景重建的任务。近期前馈重建模型通过直接从 RGB 图像回归 3D 几何(无需显式 3D 先验或几何约束)展现了有前景的结果。然而,由于记忆容量有限和无法有效捕获全局上下文线索,这些方法在长序列上往往难以维持重建精度和一致性。相比之下,人类可以自然利用场景的全局理解来指导局部感知。受此启发,我们提出一种新颖的神经全局上下文表示,高效压缩和保留长程场景信息,使模型能够利用广泛的上下文线索来增强重建精度和一致性。上下文表示通过一组轻量神经子网络实现,在测试时通过自监督目标快速自适应,大幅增加记忆容量而不产生显著计算开销。在包括 KITTI Odometry 和 Oxford Spires 数据集在内的多个大规模基准上的实验证明了我们方法在处理超大规模场景方面的有效性,实现了领先的位姿精度和最先进的 3D 重建精度,同时保持效率。


Generated on 2026-04-12T00:00Z | Sources: HuggingFace

Licensed under CC BY-NC-SA 4.0