AI Paper Daily | 2026-05-02

今日概览

重点推荐 ⭐

1. Visual Generation in the New Era: An Evolution from Atomic Mapping to Agentic World Modeling

从像素渲染到智能生成：视觉生成模型的五级进化路线图

作者: Keming Wu et al.
来源: HuggingFace Trending (70 upvotes)
链接: arXiv | PDF
关键贡献: 提出视觉生成五级分类法（原子→条件→上下文→智能体→世界建模），系统分析 flow matching、统一理解-生成模型、后训练、奖励建模等关键技术驱动力，指出当前评估过度关注感知质量而忽视结构、时序和因果缺陷。
相关技术: flow matching, unified understanding-generation, reward modeling, synthetic data distillation, world modeling
代码/权重: 未开源

📄 Abstract 中文翻译

近期的视觉生成模型在照片真实感、文字渲染、指令遵循和交互编辑方面取得了重大进展，但在空间推理、持久状态、长时一致性和因果理解上仍有困难。我们认为该领域应从外观合成转向智能视觉生成：以结构、动力学、领域知识和因果关系为基础的合理视觉内容。为框架这一转变，我们提出五级分类体系：原子生成、条件生成、上下文生成、智能体生成和世界建模生成，从被动渲染器逐步演进为交互式、具有智能体能力、具备世界感知的生成器。我们分析了关键技术驱动力，包括 flow matching、统一理解与生成模型、改进的视觉表示、后训练、奖励建模、数据治理、合成数据蒸馏和采样加速。我们进一步表明，当前评估通常通过强调感知质量而忽略结构、时序和因果层面的失败来高估进展。通过结合基准审查、真实环境压力测试和专家约束案例研究，本路线图为理解和推进下一代智能视觉生成系统提供了以能力为中心的视角。

2. Heterogeneous Scientific Foundation Model Collaboration

让科学基础模型走出语言围墙：异构智能体协作框架 Eywa

作者: Zihao Li, Jiaru Zou et al.
来源: HuggingFace Trending (176 upvotes) 🔥
链接: arXiv | PDF
关键贡献: 提出 Eywa 框架，为领域专用基础模型配备语言模型推理接口，使其参与高层推理和决策。三种部署模式：EywaAgent（单智能体替换）、EywaMAS（多智能体集成）、EywaOrchestra（规划协调），跨物理/生命/社会科学均提升性能。
相关技术: heterogeneous agentic framework, domain-specific foundation model, language-model reasoning interface, multi-agent orchestration
代码/权重: 未开源

📄 Abstract 中文翻译

智能体大语言模型系统已展现出强大能力。然而，它们对语言作为通用接口的依赖从根本上限制了其在许多现实问题中的适用性，尤其是在科学领域，那里已经开发了领域专用基础模型来解决超出自然语言范畴的专门任务。我们引入 Eywa，一个异构智能体框架，旨在将语言中心系统扩展到更广泛的科学基础模型。Eywa 的核心思想是为领域专用基础模型配备基于语言模型的推理接口，使语言模型能够引导对非语言数据模态的推理。这一设计允许预测性基础模型参与智能体系统中的高层推理和决策。Eywa 可以作为单智能体管道的即插即用替换（EywaAgent），或集成到现有多智能体系统中（EywaMAS），还可以通过规划器动态协调传统智能体和 Eywa 智能体（EywaOrchestra）。在物理、生命和社会科学领域的评估表明，Eywa 在涉及结构化和领域专用数据的任务上提升了性能，同时减少了对语言推理的依赖。

3. Efficient Training on Multiple Consumer GPUs with RoundPipe

8×RTX 4090 微调 Qwen3-235B：消费级 GPU 集群的近零气泡流水线

作者: Yibin Luo et al.
来源: HuggingFace Trending (24 upvotes)
链接: arXiv | PDF
关键贡献: RoundPipe 将 GPU 视为无状态执行工作者池，轮询动态分派计算阶段，打破权重绑定约束实现近零气泡。8×4090 上微调 1.7B-32B 模型 1.48-2.16 倍加速，单服务器可 LoRA 微调 Qwen3-235B（31K 序列长度）。
相关技术: pipeline parallelism, CPU offloading, round-robin dispatch, weight binding, consumer GPU training
代码/权重: 已开源 ✅

📄 Abstract 中文翻译

在消费级 GPU 上微调大语言模型极具成本效益，但受限于有限的 GPU 内存和缓慢的 PCIe 互连。流水线并行结合 CPU 卸载通过减少通信开销缓解了这些瓶颈。然而，现有 PP 调度存在权重绑定问题：将不均匀的模型阶段绑定到 GPU 上，会将流水线吞吐量限制为负载最重 GPU 的吞吐量。本文提出 RoundPipe，将 GPU 视为无状态执行工作者池，以轮询方式动态分派计算阶段，实现近零气泡流水线。为确保训练正确性和系统效率，集成了优先级感知传输调度引擎、细粒度分布式事件同步协议和自动化层分割算法。8×RTX 4090 上微调 1.7B 到 32B 模型实现 1.48-2.16 倍加速，单服务器可 LoRA 微调 Qwen3-235B（31K 序列长度）。

4. Leveraging Verifier-Based Reinforcement Learning in Image Editing

从简单打分到推理验证：Edit-R1 让 RLHF 适配图像编辑

作者: Hanzhong Guo et al.
来源: HuggingFace Trending (15 upvotes)
链接: arXiv | PDF
关键贡献: 构建 CoT 验证器推理奖励模型（Edit-RRM），将编辑指令分解为独立原则逐一评估再聚合为细粒度奖励。GCPO 训练 RRM + GRPO 训练编辑模型。超越 Seed-1.5-VL/1.6-VL，3B→7B 持续提升。
相关技术: chain-of-thought verifier, reward reasoning model, GRPO, group contrastive preference optimization, image editing RL
代码/权重: 未开源

📄 Abstract 中文翻译

虽然 RLHF 已成为文本到图像生成的重要范式，但其在图像编辑中的应用仍基本未被探索。关键瓶颈是缺乏稳健的通用奖励模型。现有编辑奖励模型通常给出整体分数而缺乏细致检查，忽略不同指令要求导致奖励偏差。我们认为关键在于从简单打分器转向推理验证器。引入 Edit-R1，构建链式思维验证器推理奖励模型并利用其进行下游图像编辑。Edit-RRM 将指令分解为独立原则，对编辑图像逐一评估，再聚合为可解释的细粒度奖励。先以 SFT 冷启动生成 CoT 奖励轨迹，再用群组对比偏好优化（GCPO）利用人类成对偏好数据强化逐点 RRM。最后用 GRPO 以此奖励模型训练编辑模型。Edit-RRM 超越 Seed-1.5-VL/1.6-VL 等强 VLM，3B 到 7B 持续提升，并为 FLUX.1-kontext 带来增益。

🔊 Audio LLM

9B 参数实现实时全双工全能交互，端侧 <12GB 内存可跑

作者: Junbo Cui et al.
来源: HuggingFace Trending (1 upvotes)
链接: arXiv | PDF
关键贡献: 提出 Omni-Flow 统一流式框架，将传统轮次交互转换为全双工时间对齐过程，实现同时看/听/说并具备主动行为。9B 接近 Gemini 2.5 Flash，超越 Qwen3-Omni-30B-A3B，端侧可部署。
相关技术: full-duplex interaction, omni-modal streaming, Omni-Flow, real-time speech generation, edge deployment
代码/权重: 未提及

📄 Abstract 中文翻译

多模态大语言模型的最新进展将 AI 能力从静态离线处理带到了实时流式交互，但距离人类级交互仍有差距。关键瓶颈不再是模态覆盖或延迟，而是交互范式本身——感知和响应仍被分为交替阶段，模型无法在生成中纳入新输入；大多数模型仍是被动的。MiniCPM-o 4.5 通过实时全双工全能交互缓解这些差距：可实时同时看、听和说，并展现主动行为（如基于对实时场景的持续理解发出提醒）。关键技术 Omni-Flow 是统一流式框架，沿共享时间轴对齐全能输入和输出，将轮次交互转为全双工时间对齐过程。9B 参数接近 Gemini 2.5 Flash 视觉语言能力，超越 Qwen3-Omni-30B-A3B 全能理解，端侧 <12GB 内存可运行。

6. AppTek Call-Center Dialogues: A Multi-Accent Long-Form Benchmark for English ASR

十四种口音、十六种服务场景：呼叫中心英语 ASR 新基准

作者: Eugen Beck et al.
来源: HuggingFace Trending (0 upvotes)
链接: arXiv | PDF
关键贡献: 发布 AppTek Call-Center Dialogues 语料库——14 种英语口音的即兴角色扮演客服对话，覆盖 16 种服务场景。数据专门委托录制且此前未公开，降低预训练重叠风险。基准测试揭示口音和分段方法间的显著差异。
相关技术: multi-accent ASR, conversational speech recognition, call-center dialogue, dialect robustness
代码/权重: 未提及

📄 Abstract 中文翻译

评估对话 AI 应用的英语 ASR 系统仍然困难，因为许多公开语料库要么被预分割为短片段，要么由朗读语音组成，要么缺乏方言标注。本工作提出 AppTek Call-Center Dialogues 语料库，包含 14 种英语口音的即兴角色扮演客服对话，覆盖 16 种服务场景。数据集专门委托用于评估，发布前所有音频和文本均未公开，降低了与预训练语料重叠的风险。不同分段方法下对开源 ASR 系统的基准测试表明，口音和分段方法间存在显著差异，通用美式英语基准上的良好表现不一定能推广到其他口音。

🧠 LLM Training

7. Co-Evolving Policy Distillation

专家并行训练 + 互为教师蒸馏：CoPD 实现文本/图像/视频推理全能一体

作者: Naibin Gu et al.
来源: HuggingFace Trending (34 upvotes)
链接: arXiv | PDF
关键贡献: CoPD 在专家 RLVR 训练过程中引入 OPD，专家互为教师实现双向蒸馏。解决混合 RLVR 的能力发散和传统 OPD 的师生行为模式差距问题，一体化超越领域专用专家。
相关技术: co-evolving policy distillation, RLVR, online policy distillation, bidirectional distillation, multi-modal reasoning
代码/权重: 未开源

📄 Abstract 中文翻译

RLVR 和 OPD 已成为后训练标准范式。我们提供了两者在整合多个专家能力到单一模型中的统一分析：混合 RLVR 遭受跨能力发散成本，而先训练专家再 OPD 的流水线因师生行为模式差距无法完全吸收教师能力。我们提出协同进化策略蒸馏（CoPD），鼓励专家并行训练，并在每个专家 RLVR 训练过程中引入 OPD，专家互为教师以协同进化。这使得专家间行为模式更一致，同时保持充分互补知识。实验验证 CoPD 实现文本、图像和视频推理能力全能一体化，显著优于混合 RLVR 和 MOPD，甚至超越领域专用专家。

8. KellyBench: A Benchmark for Long-Horizon Sequential Decision Making

前沿模型全部亏钱：体育博彩场景的长序列决策基准

作者: Thomas Grady et al.
来源: HuggingFace Trending (1 upvotes)
链接: arXiv | PDF
关键贡献: 引入 KellyBench，以 2023-24 英超赛季评估长序列决策。所有前沿模型平均亏损，最佳 -8%，策略评分仅 26.5%，揭示长时非平稳环境下 LLM 决策能力的严重不足。
相关技术: sequential decision making, non-stationary environment, bankroll optimization, Kelly criterion, sports betting simulation
代码/权重: 已开源 ✅

📄 Abstract 中文翻译

语言模型正在饱和窄目标过程性任务基准，但越来越多被部署在长期、非平稳、开放式目标环境中。本文引入 KellyBench，评估体育博彩市场中的序列决策。智能体被放置在 2023-24 英超赛季序列模拟中，任务是最大化长期资金增长。它们获得详细历史数据，包括高级统计、阵容和公开赔率。成功需要构建 ML 模型、识别市场边际优势并在环境变化时自适应。所有前沿模型在五个种子上平均亏损，最佳模型平均回报 -8%，许多模型经历破产。人类专家评分标准显示策略不成熟——Claude Opus 4.6 仅获 26.5% 评分。

9. LaST-R1: Reinforcing Action via Adaptive Physical Latent Reasoning for VLA Models

潜空间推理 + RL 后训练：VLA 模型 LIBERO 99.8% 成功率

作者: Hao Chen et al.
来源: HuggingFace Trending (0 upvotes)
链接: arXiv | PDF
关键贡献: 在 VLA 模型中集成物理动力学潜空间 CoT 推理，LAPO 算法联合优化潜推理和动作生成。自适应潜 CoT 根据环境复杂度动态调整推理深度。LIBERO 99.8%，真实世界提升 44%。
相关技术: latent chain-of-thought, vision-language-action model, LAPO policy optimization, adaptive reasoning horizon, robotic manipulation
代码/权重: 未开源

📄 Abstract 中文翻译

VLA 模型越来越多地融入推理机制实现复杂机器人操控。然而，现有方法无论是显式语言推理（延迟和离散化问题）还是连续潜推理，都主要局限于静态模仿学习。虽然在线 RL 已被引入 VLA，但当前方法仅优化原始动作空间，绕过物理推理过程。我们提出 LaST-R1，集成物理动力学潜 CoT 推理先于动作执行，以及 LAPO——联合优化潜推理和动作生成的新型 RL 算法。桥接推理和控制，LAPO 改善物理世界建模表示并增强交互鲁棒性。自适应潜 CoT 机制允许策略根据环境复杂度动态调整推理深度。LaST-R1 在 LIBERO 上以一次监督预热实现 99.8% 平均成功率，真实世界部署中 LAPO 后训练带来最高 44% 提升。

10. PhyCo: Learning Controllable Physical Priors for Generative Motion

物理属性可控的视频生成：ControlNet + VLM 奖励优化

作者: Sriram Narayanan et al.
来源: HuggingFace Trending (4 upvotes)
链接: arXiv | PDF
关键贡献: PhyCo 框架在视频生成中引入连续可解释的物理控制。10 万+仿真视频 + 物理属性图条件化 ControlNet + VLM 引导奖励优化，推理时无需模拟器即可生成物理一致可控视频。
相关技术: ControlNet, physics-supervised fine-tuning, VLM reward optimization, physical property map, video diffusion
代码/权重: 未开源

📄 Abstract 中文翻译

现代视频扩散模型擅长外观合成，但物理一致性仍有困难：物体漂移、碰撞缺乏真实反弹、材料响应不匹配底层属性。PhyCo 引入连续、可解释且物理基础的控制：(i) 10 万+光逼真仿真视频数据集，摩擦、恢复系数、变形和力系统变化；(ii) 以像素对齐物理属性图为条件的 ControlNet 微调扩散模型；(iii) VLM 引导奖励优化，微调 VLM 通过物理查询评估生成视频并提供可微反馈。推理时无需模拟器或几何重建。在 Physics-IQ 基准上显著改善物理真实感。

🤖 AI Agents

11. Claw-Eval-Live: A Live Agent Benchmark for Evolving Real-World Workflows

最强模型也只通过 66.7%：实时演化工作流智能体基准

作者: Chenxin Li et al.
来源: HuggingFace Trending (17 upvotes)
链接: arXiv | PDF
关键贡献: Claw-Eval-Live 将可刷新信号层与可复现发布快照分离。105 个任务、13 个前沿模型评估，最高通过率仅 66.7%。HR、管理、多系统业务流程为持续瓶颈。
相关技术: live benchmark, workflow agent, execution trace grading, deterministic checking, structured LLM judging
代码/权重: 未开源

📄 Abstract 中文翻译

LLM 智能体被期望在软件工具、业务服务和本地工作空间中完成端到端工作。然而许多基准冻结策划任务集，主要对最终响应评分，难以评估智能体是否真正执行了任务。Claw-Eval-Live 将可刷新信号层与带时间戳发布快照分离，每个发布从公开工作流需求信号构建，实例化为受控任务。评分记录执行轨迹、审计日志、服务状态和工作空间工件，确定性检查和结构化 LLM 评判结合。105 个任务评估 13 个前沿模型，领先模型仅通过 66.7%，没有模型达到 70%。HR、管理和多系统业务为持续瓶颈。

12. Step-level Optimization for Efficient Computer-use Agents

小模型默认跑、大模型按需上：Computer-use 智能体的级联推理

作者: Jinbiao Wei et al.
来源: HuggingFace Trending (1 upvotes)
链接: arXiv | PDF
关键贡献: 事件驱动步级级联框架——默认运行小策略，仅当监控器检测到高风险时升级大模型。卡住监控器检测进度退化触发恢复，里程碑监控器识别语义检查点捕捉漂移。可叠加在现有智能体上无需改架构。
相关技术: step-level cascade, stuck monitor, milestone monitor, computer-use agent, adaptive compute allocation
代码/权重: 未开源

📄 Abstract 中文翻译

Computer-use 智能体可直接与任意 GUI 交互，不依赖应用专用集成。但强智能体在实践中昂贵且缓慢，几乎每步都调用大多模态模型。这种均匀计算分配对长时 GUI 任务根本低效——许多步骤是常规的，可由小策略处理，错误集中在少数高风险时刻。失败有两种形式：进度停滞（智能体循环、重复无效动作）和静默语义漂移（偏离目标后继续局部合理动作）。我们提出事件驱动步级级联：默认运行小策略，仅当轻量监控器检测到风险时升级大模型。结合卡住监控器（检测进度退化触发恢复）和里程碑监控器（识别语义检查点捕捉漂移），将全时前沿模型推理转为自适应按需计算分配。

13. FlashRT: Towards Computationally and Memory Efficient Red-Teaming for Prompt Injection and Knowledge Corruption

长上下文红队测试加速 2-7 倍、显存降 2-4 倍

作者: Yanting Wang et al.
来源: HuggingFace Trending (0 upvotes)
链接: arXiv | PDF
关键贡献: FlashRT 是首个针对长上下文 LLM 优化化红队攻击的效率框架。2-7 倍加速（1 小时降至 <10 分钟）、2-4 倍显存降低（32K 上下文从 264.1GB 降至 65.7GB），可广泛用于 TAP、AutoDAN 等黑盒方法。
相关技术: optimization-based red-teaming, prompt injection, knowledge corruption, long-context LLM security, GPU memory optimization
代码/权重: 已开源 ✅

📄 Abstract 中文翻译

长上下文 LLM 广泛用于 RAG、自主智能体和 AI 助手，但安全性仍是部署的主要关切，面临提示注入和知识腐蚀威胁。优化化红队方法比启发式方法产生更强攻击，但资源密集，长上下文场景尤甚。FlashRT 是首个提升优化化提示注入和知识腐蚀攻击效率的框架：2-7 倍加速、2-4 倍显存降低（32K token 从 264.1GB 降至 65.7GB），可广泛用于 TAP 和 AutoDAN 等黑盒优化方法。

多模态智能体深陷"盲目执行"：交互式网站生成新基准

作者: Qiyao Wang et al.
来源: HuggingFace Trending (8 upvotes)
链接: arXiv | PDF
关键贡献: 提出 InteractWeb-Bench，首个面向非专家低代码用户的多模态交互网站生成基准。引入四种用户智能体和人物驱动指令扰动模拟模糊、冗余、矛盾指令，统一动作空间（Clarify/Implement/Verify/Submit）。前沿 MLLM 智能体仍深陷盲目执行。
相关技术: blind execution, multimodal agent, instruction perturbation, interactive code generation, intent recognition
代码/权重: 未开源

📄 Abstract 中文翻译

随着 MLLM 和编码智能体的发展，网站开发已从手动编程转向智能体代码合成。现有基准依赖理想化假设（结构良好的输入和静态执行设置），而真实开发受限于非专家用户的模糊低质量指令与模型理解间的语义错位，导致"盲目执行"失败模式。InteractWeb-Bench 是首个面向非专家低代码用户的多模态交互网站生成基准，引入四种用户智能体和人物驱动指令扰动系统模拟模糊、冗余和矛盾指令。交互执行环境具有统一动作空间（Clarify/Implement/Verify/Submit），支持迭代意图精炼、代码合成和视觉反馈验证。实验揭示前沿 MLLM 智能体仍困于盲目执行，暴露意图识别和自适应交互的局限。

📌 其他值得关注

15. TripVVT: A Large-Scale Triplet Dataset and a Coarse-Mask Baseline for In-the-Wild Video Virtual Try-On

最大规模野外视频虚拟试穿三元组数据集 + 粗掩码基线

作者: Dingbao Shao et al.
来源: HuggingFace Trending (0 upvotes)
链接: arXiv | PDF
关键贡献: 发布 TripVVT-10K，最大且最多样化的野外视频虚拟试穿三元组数据集。提出 TripVVT 框架，用简单稳定的人体掩码先验替代脆弱的服装掩码，配合 Diffusion Transformer 实现鲁棒背景保持。同时建立 TripVVT-Bench 100 例基准。
相关技术: video virtual try-on, triplet dataset, coarse mask prior, Diffusion Transformer, temporal coherence
代码/权重: 未提及

📄 Abstract 中文翻译

由于大规模野外三元组数据的稀缺和掩码使用不当，视频虚拟试穿模型性能仍然有限。我们首先引入 TripVVT-10K，迄今为止最大且最多样化的野外三元组数据集，提供现有视频数据集缺乏的显式视频级跨服装监督。在此基础上，我们开发 TripVVT，一个基于 Diffusion Transformer 的框架，用简单稳定的人体掩码先验替代脆弱的服装掩码，实现可靠背景保持，对真实世界运动、遮挡和杂乱场景鲁棒。我们还建立 TripVVT-Bench，100 例基准覆盖多样服装、复杂环境和多人场景，指标涵盖视频质量、试穿保真度、背景一致性和时间连贯性。相比最先进学术和商业系统，TripVVT 实现更优视频质量和服装保真度，同时显著改善对挑战性野外视频的泛化。

Generated on 2026-05-02T00:00:00Z | Sources: HuggingFace

今日概览

重点推荐 ⭐

1. Visual Generation in the New Era: An Evolution from Atomic Mapping to Agentic World Modeling

2. Heterogeneous Scientific Foundation Model Collaboration

3. Efficient Training on Multiple Consumer GPUs with RoundPipe

4. Leveraging Verifier-Based Reinforcement Learning in Image Editing

🔊 Audio LLM

5. MiniCPM-o 4.5: Towards Real-Time Full-Duplex Omni-Modal Interaction

6. AppTek Call-Center Dialogues: A Multi-Accent Long-Form Benchmark for English ASR

🧠 LLM Training

7. Co-Evolving Policy Distillation

8. KellyBench: A Benchmark for Long-Horizon Sequential Decision Making

9. LaST-R1: Reinforcing Action via Adaptive Physical Latent Reasoning for VLA Models

10. PhyCo: Learning Controllable Physical Priors for Generative Motion

🤖 AI Agents

11. Claw-Eval-Live: A Live Agent Benchmark for Evolving Real-World Workflows

12. Step-level Optimization for Efficient Computer-use Agents

13. FlashRT: Towards Computationally and Memory Efficient Red-Teaming for Prompt Injection and Knowledge Corruption

14. InteractWeb-Bench: Can Multimodal Agent Escape Blind Execution in Interactive Website Generation?

📌 其他值得关注

15. TripVVT: A Large-Scale Triplet Dataset and a Coarse-Mask Baseline for In-the-Wild Video Virtual Try-On