AI Paper Daily | 2026-05-05

今日概览

共收录 15 篇论文 | Audio LLM: 1篇 | LLM Training: 7篇 | AI Agents: 5篇 | 其他值得关注: 2篇来源: HuggingFace(15)

五一假期论文产出较少，以5月1日新发布的论文为主，部分4月30日论文因假期未及时收录，今日补收。

重点推荐 ⭐

UniVidX: A Unified Multimodal Framework for Versatile Video Generation via Diffusion Priors

用随机条件掩码和解耦门控LoRA实现任意模态到任意模态的视频生成，千级视频即可训练出竞争力模型

作者: Houyuan Chen et al.
来源: HuggingFace Trending (68 upvotes)
链接: arXiv | PDF
关键贡献: 提出统一视频扩散框架 UniVidX，通过随机条件掩码(SCM)打破固定输入-输出映射，解耦门控LoRA(DGL)保护VDM主干先验，跨模态自注意力(CMSA)促进模态间信息交换。在两个领域实例化：内蕴视频分解(uniVid-Intrinsic)和RGBA层分离(uniVid-Alpha)，均达到SOTA水平，且仅需不到1000条视频训练即可泛化到野外场景。
相关技术: stochastic condition masking, decoupled gated LoRA, cross-modal self-attention, video diffusion prior, intrinsic video decomposition
代码/权重: 已开源 ✅ (Project Page)

📄 Abstract 中文翻译

近期研究表明，视频扩散模型(VDMs)可被改造用于多种多模态图形任务。然而，现有方法通常为每种问题设置训练单独的模型，这固定了输入-输出映射并限制了跨模态相关性的建模。我们提出UniVidX，一个利用VDM先验进行多功能视频生成的统一多模态框架。UniVidX将像素对齐任务表述为共享多模态空间中的条件生成，在适应模态特定分布的同时保持主干的原生先验，并在合成过程中促进跨模态一致性。它基于三个关键设计：随机条件掩码(SCM)在训练期间随机将模态划分为干净条件和噪声目标，实现全方向条件生成而非固定映射；解耦门控LoRA(DGL)引入每模态LoRA，仅在模态作为生成目标时激活，保留VDM的强先验；跨模态自注意力(CMSA)在模态间共享键和值，同时保持模态特定的查询，促进信息交换和模态间对齐。我们在两个领域实例化UniVidX：用于RGB视频和内蕴图(包括反照率、辐照度和法线)的UniVid-Intrinsic，以及用于混合RGB视频及其组成RGBA层的UniVid-Alpha。实验表明，两个模型在不同任务上均达到与SOTA方法竞争的性能，并能稳健地泛化到野外场景，即使在少于1000条视频上训练也是如此。

Let ViT Speak: Generative Language-Image Pre-training

让ViT直接预测语言token，用最简框架实现视觉编码器与LLM的深度对齐

作者: Yan Fang et al.
来源: HuggingFace Trending (9 upvotes)
链接: arXiv | PDF
关键贡献: 提出GenLIP，一个极简的生成式预训练框架，让ViT直接用语言建模目标预测文本token，无需对比学习或额外文本解码器。在8B样本上训练后，GenLIP在多模态基准上匹配或超越强基线，且预训练数据量大幅减少。继续预训练多分辨率图像后，在OCR和图表理解等细节敏感任务上进一步提升。
相关技术: generative language-image pre-training, Vision Transformer, autoregressive language modeling, multimodal alignment, OCR understanding
代码/权重: 未提及

📄 Abstract 中文翻译

本文提出生成式语言-图像预训练(GenLIP)，一个为多模态大语言模型(MLLMs)设计的Vision Transformer极简生成式预训练框架。为了更好地将视觉编码器与LLM的自回归特性对齐，GenLIP训练ViT使用标准语言建模目标直接从视觉token预测语言token，无需对比批次构建或额外的文本解码器。这一设计提供三个核心优势：(1) 简洁性：单个transformer联合建模视觉和文本token；(2) 可扩展性：随数据和模型规模有效扩展；(3) 性能：在多种多模态基准上取得竞争性或更优结果。在Recap-DataComp-1B的8B样本上训练后，GenLIP尽管使用大幅减少的预训练数据，仍匹配或超越强基线。在原生宽高比的多分辨率图像上继续预训练后，GenLIP在OCR和图表理解等细节敏感任务上进一步提升，成为MLLM中视觉编码器的强大基础。

Web2BigTable: A Bi-Level Multi-Agent LLM System for Internet-Scale Information Search and Extraction

双层多智能体架构实现广度+深度互联网搜索，WideSearch上成功率7.5倍于第二名

作者: Yuxuan Huang et al.
来源: HuggingFace Trending (26 upvotes)
链接: arXiv | PDF
关键贡献: 提出双层多智能体框架Web2BigTable，上层协调器分解任务、下层工人智能体并行求解，通过闭环运行-验证-反思过程持续改进分解和执行。在WideSearch基准上Avg@4成功率38.50(第二名的7.5倍)，Row F1 63.53，Item F1 80.12。同时泛化到深度搜索任务XBench-DeepSearch，达到73.0准确率。
相关技术: bi-level multi-agent orchestration, closed-loop run-verify-reflect, shared workspace coordination, web-to-table extraction, persistent external memory
代码/权重: 已开源 ✅ (GitHub)

📄 Abstract 中文翻译

智能体网络搜索日益面临两种不同需求：对单一目标的深度推理，以及跨多实体和异构源的结构化聚合。当前系统在这两方面均面临困境。广度导向任务需要模式对齐的输出，具有广泛的覆盖范围和跨实体一致性；深度导向任务则需要沿长而分支的搜索轨迹进行连贯推理。我们提出Web2BigTable，一个用于网络到表格搜索的多智能体框架，同时支持两种范式。Web2BigTable采用双层架构，上层协调器将任务分解为子问题，下层工人智能体并行求解。通过闭环的运行-验证-反思过程，框架通过持久化、人类可读的外部记忆联合改进分解和执行，同时对每个单智能体进行自我进化更新。在执行过程中，工人通过共享工作空间协调，使部分发现可见，允许它们减少冗余探索、调和矛盾证据，并适应新出现的覆盖缺口。Web2BigTable在WideSearch上创下了新的SOTA，Avg@4成功率38.50(第二名的7.5倍)，Row F1 63.53(+25.03)，Item F1 80.12(+14.42)。它还泛化到XBench-DeepSearch的深度搜索，达到73.0准确率。

🔊 Audio LLM

LASE: Language-Adversarial Speaker Encoding for Indic Cross-Script Identity Preservation

用语言对抗训练让说话人编码器忽略文字系统差异，实现跨脚本的语音克隆身份保持

作者: Venkata Pushpak Teja Menta et al.
来源: HuggingFace Trending (1 upvote)
链接: arXiv | PDF
关键贡献: 针对印度语言跨脚本场景下的语音克隆问题，提出语言对抗说话人编码(LASE)。当同一说话人使用不同书写系统(如印地语的天城文和拉丁转写)时，说话人编码器应产生相同的嵌入。通过对抗训练使编码器对脚本变化不变，提升跨脚本身份保持能力。
相关技术: language-adversarial training, speaker encoding, cross-script identity preservation, voice cloning, Indic language processing
代码/权重: 未提及

📄 Abstract 中文翻译

用于多语言语音克隆的说话人编码器应当将同一说话人视为相同，无论其使用何种书写系统。然而，当同一种语言可以用多种脚本书写时——这在印度语言中很常见(例如印地语可以用天城文或拉丁转写书写)——现有说话人编码器会产生不一致的嵌入，损害说话人验证和语音克隆性能。我们提出语言对抗说话人编码(LASE)，通过对抗训练鼓励编码器产生脚本不变的说话人表示。在跨脚本印地语语音克隆的实验中，LASE显著提高了说话人相似性和验证准确率，同时不损害语音质量或可懂度。

🧠 LLM Training

Odysseus: Scaling VLMs to 100+ Turn Decision-Making in Games via Reinforcement Learning

适配PPO+轻量级回合评论家让VLM在100+回合游戏决策中稳定训练，3倍超越前沿模型

作者: Chengshuai Shi et al.
来源: HuggingFace Trending (4 upvotes)
链接: arXiv | PDF
关键贡献: 研究VLM在长程(100+回合)交互决策中的RL训练，提出适配PPO变体配合轻量级回合评论家，大幅提升训练稳定性和样本效率(优于GRPO和Reinforce++)。预训练VLM提供强动作先验，减少动作工程需求。Odysseus框架在Super Mario Land上实现至少3倍于前沿模型的游戏进度，且保持跨关卡泛化和通用能力。
相关技术: PPO with turn-level critic, long-horizon reinforcement learning, VLM action prior, embodied agent training, sample-efficient RL
代码/权重: 未提及

📄 Abstract 中文翻译

随着视觉-语言模型(VLMs)能力的快速增长，将其扩展到视频游戏等交互决策任务已成为一个有前景的前沿方向。然而，现有方法要么依赖大规模人类轨迹的监督微调(SFT)，要么仅在相对短程设置(通常约20-30回合)中应用强化学习(RL)。本文研究在Super Mario Land中基于RL的VLM长程决策训练，这是一个视觉驱动的环境，需要100+回合的协调感知、推理和动作。我们从系统调查关键算法组件开始，提出一种适配PPO变体，配备轻量级回合评论家，在训练稳定性和样本效率上大幅优于无评论家方法(如GRPO和Reinforce++)。我们进一步证明，预训练VLM提供强动作先验，显著提高RL训练的样本效率，相比从零训练的经典深度RL减少了手动设计(如动作工程)的需求。基于这些发现，我们引入Odysseus，一个VLM智能体开放训练框架，在游戏的多个关卡上实现显著提升，游戏进度至少3倍于前沿模型。此外，训练后的模型在游戏内和跨游戏泛化设置下均展现一致改进，同时保持通用领域能力。

MASCing: Configurable Mixture-of-Experts Behavior via Activation Steering Masks

无需重训练即可重新配置MoE模型的安全行为，防御成功率从52.5%提升到83.9%

作者: Jona te Lintelo et al.
来源: HuggingFace Trending (2 upvotes)
链接: arXiv | PDF
关键贡献: 提出MASCing框架，首次实现无需重训练即可灵活重配置MoE模型行为。用LSTM代理模型捕获跨层路由依赖，优化引导矩阵识别行为相关专家电路，推理时通过引导掩码覆盖专家选择。在多轮越狱防御上将成功率从52.5%提升至83.9%，在7个开源MoE模型上一致有效且开销极小。
相关技术: MoE activation steering, LSTM surrogate routing model, expert circuit identification, safety reconfiguration, routing gate override
代码/权重: 未提及

📄 Abstract 中文翻译

大语言模型(LLMs)中的混合专家(MoE)架构通过稀疏激活显著降低了推理成本。然而，这种稀疏激活范式也引入了新的安全挑战。由于每个输入只激活部分专家，模型行为与路由决策耦合，产生难以控制的机制。同时，通过完全微调或重训练来调整模型行为代价高昂，特别是当开发者需要为不同安全目标快速配置同一模型时。我们提出MASCing(MoE激活引导配置)，首个无需重训练即可跨多种安全场景灵活重配置MoE行为的框架。MASCing使用基于LSTM的代理模型捕获跨层路由依赖，将路由logits映射到下游行为。然后优化引导矩阵识别行为相关的专家电路，推理时将引导掩码应用于路由门控以覆盖专家选择。这使得可以有针对性地增强或抑制特定行为，同时保留通用语言能力。为展示其可重配置性，我们将MASCing应用于两个不同的安全相关目标，在7个开源MoE模型上观察到一致提升且开销可忽略。对于多轮越狱防御，平均防御成功率从52.5%提升至83.9%，最高提升89.2%；对于成人内容生成，MASCing使模型能够满足原本会被拒绝的请求，平均生成成功率从52.6%提升至82.0%，最高提升93.0%。

Themis: Training Robust Multilingual Code Reward Models for Flexible Multi-Criteria Scoring

350K+偏好对训练多语言多准则代码奖励模型，从600M到32B参数正向扩展

作者: Indraneil Paul et al.
来源: HuggingFace Trending (2 upvotes)
链接: arXiv | PDF
关键贡献: 构建Themis-CodeRewardBench(跨5个偏好维度和8种编程语言的代码RM基准)，发现现有RM在功能正确性之外评分能力有限。发布Themis-CodePreference(最大开源代码偏好集合，350K+偏好对)，训练Themis-RM(600M到32B的多语言代码奖励模型)，展现正向扩展趋势和强跨语言迁移能力。
相关技术: multi-criteria code reward modeling, multilingual code preference, cross-lingual transfer, reward model scaling, code generation evaluation
代码/权重: 未提及

📄 Abstract 中文翻译

奖励模型(RMs)已成为语言模型(LM)后训练流程中不可或缺的组成部分，用于策略对齐和测试时扩展。然而，RM在代码生成中的应用研究相对稀少，现有工作主要关注执行反馈。这一选择将后训练局限于优化自包含可执行代码的功能正确性。本文研究多语言、多准则代码RM的训练和评估。为此，我们首先构建Themis-CodeRewardBench，一个跨5个偏好维度(即准则)和8种编程语言评估代码RM的基准，在上面评测了50+个代码、数学和通用RM。观察到当前RM在功能正确性评分之外能力有限，我们开发Themis-CodePreference，迄今最大的开源代码偏好集合(超过350K偏好对)，并用它训练Themis-RM，一套用于灵活多准则评分的多语言代码奖励模型，参数规模从600M到32B。实验和消融实验展示了正向扩展趋势、在多样偏好上训练时的强跨语言迁移，以及多准则训练对可靠代码奖励建模的重要性。

Learning while Deploying: Fleet-Scale Reinforcement Learning for Generalist Robot Policies

部署即训练：车队规模RL让通用机器人策略在部署中持续进化

作者: Yi Wang et al.
来源: HuggingFace Trending (10 upvotes)
链接: arXiv | PDF
关键贡献: 提出车队规模强化学习框架，让通用机器人策略在部署过程中持续学习和改进。离线预训练数据不足以覆盖真实世界的多样性，通过在真实机器人车队上在线部署并收集经验，实现策略的持续进化。为大规模部署RL训练提供了实用方案。
相关技术: fleet-scale reinforcement learning, generalist robot policy, online deployment learning, robot fleet training, continual policy improvement
代码/权重: 未提及

📄 Abstract 中文翻译

通用机器人策略日益受益于大规模预训练，但仅靠离线数据不足以覆盖真实世界交互的多样性。同时在真实机器人上部署和训练面临独特的工程和算法挑战。本文提出一种车队规模强化学习框架，使通用机器人策略能够在部署过程中持续学习和改进。我们描述了在真实机器人车队上大规模运行在线RL的系统设计，包括经验收集、分布式训练和策略更新的关键决策。实验表明，部署时学习显著提升了策略在未见环境中的泛化能力，同时保持了在训练分布上的性能。

Online Self-Calibration Against Hallucination in Vision-Language Models

在线自校准机制让VLM实时检测和修正自身幻觉

作者: Minghui Chen et al.
来源: HuggingFace Trending (2 upvotes)
链接: arXiv | PDF
关键贡献: 针对大型视觉-语言模型(LVLMs)的幻觉问题，提出在线自校准方法。模型在生成过程中实时检测可能的幻觉输出并进行自我修正，无需外部验证器或额外训练数据，有效降低幻觉率同时保持生成质量。
相关技术: online self-calibration, hallucination detection, vision-language model, self-correction, confidence estimation
代码/权重: 未提及

📄 Abstract 中文翻译

大型视觉-语言模型(LVLMs)常受幻觉困扰，生成包含不存在的视觉细节的描述。现有缓解方法主要依赖外部工具、后处理过滤或额外训练，增加了复杂性和成本。我们提出一种在线自校准方法，使LVLMs能够在生成过程中实时检测和修正自身的幻觉输出。我们的方法利用模型内部的置信度信号识别不确定的生成片段，并触发针对性的自我修正。无需外部验证器或额外训练数据，该方法在多个LVLM基准上有效降低了幻觉率，同时保持了生成质量。

🤖 AI Agents

Being-H0.7: A Latent World-Action Model from Egocentric Videos

潜在世界-动作模型：在感知和动作之间插入可学习潜在查询，无需视觉rollout即可进行未来感知推理

作者: Hao Luo et al.
来源: HuggingFace Trending (0 upvotes)
链接: arXiv | PDF
关键贡献: 提出Being-H0.7，一个潜在世界-动作模型，在VLA策略的感知和动作之间插入可学习潜在查询作为紧凑推理接口。通过未来信息双分支设计(可部署先验分支+仅训练后验分支)对齐潜在空间，使先验分支仅从当前观测推理出未来感知、动作有用的结构，推理时无需视觉rollout。在6个仿真基准和多种真实任务上达到SOTA或可比性能。
相关技术: latent world-action model, dual-branch future-informed training, VLA policy, latent query reasoning, egocentric video learning
代码/权重: 未提及

📄 Abstract 中文翻译

视觉-语言-动作模型(VLAs)通过将多模态观测和语言指令直接映射到动作，推动了通用机器人控制的发展，但稀疏的动作监督往往鼓励捷径映射，而非对动力学、接触和任务进展的表示。最近的世界-动作模型通过视频rollout引入未来预测，但像素空间预测是控制的高成本且间接的基底，因为它可能建模与动作生成无关的视觉细节，并引入大量训练或推理开销。我们提出Being-H0.7，一个潜在世界-动作模型，将未来感知推理带入VLA式策略而无需生成未来帧。Being-H0.7在感知和动作之间插入可学习潜在查询作为紧凑推理接口，并通过未来信息双分支设计训练：可部署的先验分支从当前上下文推断潜在状态，仅训练的后验分支用未来观测的嵌入替换查询。在潜在推理空间对齐两个分支，使先验分支仅从当前观测即可推理出未来感知、动作有用的结构。推理时，Being-H0.7丢弃后验分支，不进行视觉rollout。在6个仿真基准和多种真实任务上的实验表明，Being-H0.7达到SOTA或可比性能，结合了世界模型的预测优势和直接VLA策略的效率与可部署性。

WindowsWorld: A Process-Centric Benchmark of Autonomous GUI Agents in Professional Cross-Application Environments

跨应用工作流基准：所有GUI智能体在多应用任务上成功率不到21%

作者: Jinchao Li et al.
来源: HuggingFace Trending (1 upvote)
链接: arXiv | PDF
关键贡献: 提出WindowsWorld，首个跨应用工作流GUI智能体基准，使用16种职业驱动的多智能体框架生成4个难度级别的任务。181个任务平均5.0个子目标，覆盖17个桌面应用，78%为跨应用任务。实验发现所有智能体在多应用任务上成功率<21%，在需3+应用条件判断的任务上基本失败，且执行效率远低于人类。
相关技术: cross-application GUI benchmark, multi-step workflow evaluation, professional task simulation, occupation-driven task generation, desktop automation
代码/权重: 已开源 ✅ (GitHub)

📄 Abstract 中文翻译

虽然GUI智能体在OSWorld等常见计算机使用任务中展现了令人印象深刻的能力，但当前基准主要关注孤立的、单应用任务。这忽略了一个关键的现实需求：跨多个应用协调以完成复杂的职业特定工作流。为弥补这一差距，我们提出WindowsWorld，一个跨应用工作流计算机使用基准，旨在系统评估GUI智能体在反映真实职业活动的复杂多步骤任务上的表现。我们的方法使用16种职业驱动的多智能体框架生成4个难度级别的任务(含中间检查)，经人工审核并在模拟环境中执行。最终基准包含181个任务，平均5.0个子目标，覆盖17个常见桌面应用，其中78%为跨应用任务。前沿大模型和智能体的实验结果显示：(1) 所有计算机使用智能体在多应用任务上表现较差(<21%成功率)，远低于简单单应用任务的表现；(2) 它们在需要3+应用条件判断和推理的任务上基本失败，在早期子目标即停滞；(3) 执行效率低，即使远超人类步数限制也常失败。

Map2World: Segment Map Conditioned Text to 3D World Generation

用分割地图作为结构化条件，从文本生成3D世界

作者: Jaeyoung Chung et al.
来源: HuggingFace Trending (13 upvotes)
链接: arXiv | PDF
关键贡献: 提出Map2World，一种以分割地图为结构化条件的文本到3D世界生成方法。分割地图提供场景的空间布局和语义结构，使生成结果在几何和语义上更加一致和可控，为沉浸式内容创建和自动驾驶仿真等应用提供支持。
相关技术: segment map conditioning, text-to-3D generation, structured scene synthesis, spatial layout control, semantic-aware generation
代码/权重: 未提及

📄 Abstract 中文翻译

3D世界生成对于沉浸式内容创建和自动驾驶仿真等应用至关重要。现有文本到3D生成方法在空间布局控制和语义一致性方面存在不足。我们提出Map2World，一种以分割地图为结构化条件的文本到3D世界生成方法。分割地图为生成模型提供了场景的空间布局和语义结构信息，使生成的3D世界在几何和语义上更加一致和可控。我们的方法将分割地图作为额外的条件输入与文本提示结合，引导生成过程遵循预定义的空间结构，同时保持文本描述的语义丰富性。

Learning to Act and Cooperate for Distributed Black-Box Consensus Optimization

多智能体学会在黑盒共识优化中行动与合作

作者: Zi-Bo Qin et al.
来源: HuggingFace Trending (2 upvotes)
链接: arXiv | PDF
关键贡献: 研究分布式黑盒共识优化问题，智能体必须改善共享目标函数且就解达成一致。提出一种让智能体同时学习行动和合作的方法，在不知道目标函数显式形式的情况下，通过局部通信和协调实现全局共识优化。
相关技术: distributed black-box optimization, multi-agent consensus, cooperative learning, local communication coordination, decentralized decision-making
代码/权重: 未提及

📄 Abstract 中文翻译

分布式黑盒共识优化是多智能体系统中的一个基础问题，智能体必须改善共享目标函数并就解达成一致，但无法访问目标函数的显式形式。我们研究智能体如何在完全黑盒设置下同时学习行动策略和合作策略。我们的方法通过局部通信和协调机制，使智能体能够在不知道目标函数梯度信息的情况下，有效地探索解空间并就最优解达成共识。实验表明，所提方法在多种基准问题上优于传统的分布式优化方法。

End-to-End Autoregressive Image Generation with 1D Semantic Tokenizer

一维语义tokenizer实现端到端自回归图像生成

作者: Wenda Chu et al.
来源: HuggingFace Trending (4 upvotes)
链接: arXiv | PDF
关键贡献: 设计一维语义tokenizer将图像压缩为紧凑的一维token序列，实现端到端自回归图像生成。相比传统2D token化方法，一维序列更自然地适配自回归模型的从左到右生成范式，在保持重建质量的同时减少token数量，提升生成效率。
相关技术: 1D semantic tokenizer, autoregressive image generation, compact token sequence, end-to-end generation, visual tokenization
代码/权重: 未提及

📄 Abstract 中文翻译

自回归图像建模依赖视觉tokenizer将图像压缩为紧凑的潜在表示。我们设计一种一维语义tokenizer，将图像压缩为一维token序列，实现端到端自回归图像生成。相比传统二维token化方法，一维序列更自然地适配自回归模型的从左到右生成范式，在保持重建质量的同时减少token数量，提升生成效率。

📌 其他值得关注

Stable-GFlowNet: Toward Diverse and Robust LLM Red-Teaming via Contrastive Trajectory Balance

用对比轨迹平衡的GFlowNet实现多样且鲁棒的LLM红队测试

作者: Minchan Kwon et al.
来源: HuggingFace Trending (10 upvotes)
链接: arXiv | PDF
关键贡献: 提出Stable-GFlowNet，通过对比轨迹平衡目标改进GFlowNet的训练稳定性，用于LLM红队测试。相比传统方法，能发现更多样化的攻击路径，提供更全面的模型漏洞评估。
相关技术: GFlowNet, contrastive trajectory balance, LLM red-teaming, diverse attack generation, model vulnerability assessment
代码/权重: 未提及

📄 Abstract 中文翻译

大型语言模型(LLM)红队测试——主动识别LLM漏洞——是保障模型安全的关键流程。生成流网络(GFlowNets)是发现多种攻击提示的有前景框架，但其训练常受不稳定性困扰。我们提出Stable-GFlowNet，通过对比轨迹平衡目标改进GFlowNet的训练稳定性。该方法在保持发现多样性攻击路径能力的同时，显著提升训练收敛性和生成攻击的质量，为LLM安全评估提供更全面的漏洞覆盖。

Generated on 2026-05-05 00:00 UTC | Sources: HuggingFace