AI Paper Daily | 2026-05-04

今日概览

共收录 3 篇新论文 | LLM Training: 2篇 | LLM Training (视觉生成): 1篇来源: HuggingFace(3)

注：今日 arXiv API 限流（429），仅从 HuggingFace Trending 获取数据。预筛选的 30 篇论文中 27 篇已在过去 7 天内报道，以下为新增论文。

重点推荐 ⭐

LaST-R1: Reinforcing Action via Adaptive Physical Latent Reasoning for VLA Models

将隐式物理推理链与强化学习联合优化，VLA 模型在 LIBERO 上达到 99.8% 成功率

作者: Hao Chen, Jiaming Liu, Zhonghao Yan et al.
来源: HuggingFace
链接: arXiv | PDF
关键贡献: 提出 LaST-R1 框架，将隐式 Chain-of-Thought 物理推理与动作生成统一在 RL 后训练中联合优化（LAPO 算法）；引入自适应隐式 CoT 机制，根据环境复杂度动态调整推理深度。仅用一次监督热启动即在 LIBERO 达到 99.8% 成功率，真实世界部署提升 44%。
相关技术: latent chain-of-thought, vision-language-action model, latent-to-action policy optimization, adaptive reasoning horizon, robotic manipulation
代码/权重: 未提及

📄 Abstract 中文翻译

视觉-语言-动作（VLA）模型越来越多地融入推理机制以应对复杂的机器人操作任务。然而，现有方法存在一个关键局限：无论是采用延迟高且存在离散化问题的显式语言推理，还是表达能力更强的连续隐式推理，它们主要局限于静态模仿学习，限制了适应性和泛化能力。虽然在线强化学习（RL）已被引入 VLA 以实现试错探索，但现有方法仅优化原始动作空间，绕过了底层的物理推理过程。本文提出 LaST-R1，一个统一 VLA 框架，在动作执行前集成了基于物理动力学的隐式 Chain-of-Thought（CoT）推理，并搭配定制的 RL 后训练范式。具体而言，我们提出 Latent-to-Action Policy Optimization（LAPO），一种联合优化隐式推理过程和动作生成的全新 RL 算法。通过连接推理与控制，LAPO 改善了物理世界建模的表征，并增强了交互环境中的鲁棒性。此外，引入自适应隐式 CoT 机制，允许策略根据环境复杂度动态调整推理深度。大量实验表明，LaST-R1 仅用一次监督热启动即在 LIBERO 基准上达到接近完美的 99.8% 平均成功率，显著提升了收敛速度和性能，超越了此前最先进方法。在真实世界部署中，LAPO 后训练在四个复杂任务（包括单臂和双臂设置）上比初始热启动策略提升最高 44%。最后，LaST-R1 在仿真和真实世界环境中展现了强泛化能力。

PhyCo: Learning Controllable Physical Priors for Generative Motion

通过物理属性条件控制视频生成中的物体运动，让生成的视频物理上更一致且可控

作者: Sriram Narayanan, Ziyu Jiang, Srinivasa Narasimhan, Manmohan Chandraker
来源: HuggingFace
链接: arXiv | PDF
关键贡献: 构建 10 万+物理仿真视频数据集，系统化变化摩擦、弹性、形变等物理参数；用 ControlNet 条件化像素级物理属性图微调扩散模型；结合 VLM 引导的奖励优化提供可微物理反馈。推理时无需仿真器即可物理一致且可控地生成视频。
相关技术: physics-supervised fine-tuning, ControlNet conditioning, VLM-guided reward optimization, physical property maps, video diffusion model
代码/权重: 未提及

📄 Abstract 中文翻译

现代视频扩散模型在外观合成方面表现出色，但在物理一致性上仍然挣扎：物体会漂移，碰撞缺乏真实的反弹，材料响应很少匹配其底层属性。我们提出 PhyCo，一个将连续、可解释且物理基础化的控制引入视频生成的框架。该方法整合三个关键组件：（i）超过 10 万条真实感仿真视频的大规模数据集，其中摩擦、弹性恢复系数、形变和力在多种场景中系统化变化；（ii）使用 ControlNet 以像素对齐的物理属性图为条件，对预训练扩散模型进行物理监督微调；（iii）VLM 引导的奖励优化，其中微调后的视觉-语言模型以针对性物理查询评估生成视频，并提供可微反馈。这种组合使得生成模型能够通过物理属性变化产生物理一致且可控的输出——推理时无需任何仿真器或几何重建。在 Physics-IQ 基准上，PhyCo 相比强基线显著提升了物理真实感，人类研究也确认了对物理属性更清晰、更忠实的控制。我们的结果展示了一条可扩展的路径，通向物理一致、可控的生成式视频模型，并能超越合成训练环境泛化。

Intern-Atlas: A Methodological Evolution Graph as Research Infrastructure for AI Scientists

从百万论文中自动构建方法演化图谱，为 AI 科学家提供可查询的方法演进因果网络

作者: Yujun Wu, Dongxu Zhang, Xinchen Li et al.
来源: HuggingFace (37 upvotes)
链接: arXiv | PDF
关键贡献: 从 103 万篇论文中自动构建包含 940 万条语义类型边的方法演化图谱，每条边均附有原文证据；提出自引导时序树搜索算法构建方法演化链；支持想法评估和自动化想法生成等下游应用。
相关技术: methodological evolution graph, lineage inference, temporal tree search, automated idea generation, knowledge infrastructure
代码/权重: 未提及

📄 Abstract 中文翻译

现有研究基础设施本质上是文档中心的，提供论文之间的引用链接，但缺乏对方法论演化的显式表示。特别是，它无法捕捉解释研究方法如何及为何涌现、适应和相互构建的结构化关系。随着 AI 驱动的研究智能体作为科学知识的新消费者崛起，这一局限性变得日益关键，因为此类智能体无法从非结构化文本中可靠地重建方法演化拓扑。我们提出 Intern-Atlas，一个方法论演化图谱，能自动识别方法级实体、推断方法之间的谱系关系，并捕捉驱动连续创新之间转换的瓶颈。该图谱从 1,030,314 篇涵盖 AI 会议、期刊和 arXiv 预印本的论文构建而成，包含 9,410,201 条语义类型边，每条边均基于逐字原文证据，形成可查询的方法论发展因果网络。为操作化这一结构，我们进一步提出自引导时序树搜索算法，用于构建追踪方法随时间演进的方法演化链。我们评估了所生成图谱的质量，与专家策划的真实演化链相比观察到强对齐。此外，我们展示了 Intern-Atlas 在想法评估和自动化想法生成中的下游应用。我们将方法论演化图谱定位为新兴自动化科学发现的基础数据层。

🧠 LLM Training

LaST-R1: Reinforcing Action via Adaptive Physical Latent Reasoning for VLA Models

见重点推荐 ⭐

PhyCo: Learning Controllable Physical Priors for Generative Motion

见重点推荐 ⭐

Intern-Atlas: A Methodological Evolution Graph as Research Infrastructure for AI Scientists

见重点推荐 ⭐

Generated on 2026-05-04T00:00:00Z | Sources: HuggingFace (arXiv rate-limited)