AI Paper Daily | 2026-04-23

今日概览

共收录 16 篇论文 | Audio LLM: 1篇 | LLM Training: 11篇 | AI Agents: 2篇 | 其他值得关注: 2篇来源: HuggingFace(16)

重点推荐 ⭐

CoInteract: Physically-Consistent Human-Object Interaction Video Synthesis via Spatially-Structured Co-Generation

首个通过空间结构化协同生成实现物理一致人-物交互视频合成的端到端框架

作者: Xiangyang Luo et al.
来源: HuggingFace Trending (59 upvotes)
链接: arXiv | PDF
关键贡献: 提出 Human-Aware MoE 和空间结构化协同生成双流训练范式，解决了人-物交互视频中手部结构不稳定和穿透问题。推理时辅助分支可移除，零额外开销。
相关技术: mixture-of-experts, spatially-structured co-generation, human-object interaction, diffusion transformer
代码/权重: 未提及

📄 Abstract 中文翻译

合成人-物交互（HOI）视频在电商、数字广告和虚拟营销中有广泛应用价值。然而，当前的扩散模型尽管具备照片级渲染能力，仍然频繁在以下方面失败：(i) 手部和面部等敏感区域的结构稳定性，以及 (ii) 物理上合理的接触（例如避免手-物穿透）。我们提出 CoInteract，一个基于人物参考图像、产品参考图像、文本提示和语音音频条件的端到端 HOI 视频合成框架。CoInteract 引入两个互补设计，嵌入到 Diffusion Transformer（DiT）骨干中。首先，我们提出 Human-Aware Mixture-of-Experts（MoE），通过空间监督路由将 token 路由到轻量级的区域专用专家，以最小的参数开销提升细粒度结构保真度。其次，我们提出空间结构化协同生成（Spatially-Structured Co-Generation），一种双流训练范式，联合建模 RGB 外观流和辅助 HOI 结构流，注入交互几何先验。训练时，HOI 流关注 RGB token，其监督正则化共享骨干权重；推理时，HOI 分支被移除以实现零开销的 RGB 生成。实验结果表明，CoInteract 在结构稳定性、逻辑一致性和交互真实感方面显著优于现有方法。

ShadowPEFT: Shadow Network for Parameter-Efficient Fine-Tuning

将 PEFT 从分布式权重扰动转向集中式层空间精修，用深度共享的影子模块实现高效微调

作者: Xianming Li et al.
来源: HuggingFace Trending (18 upvotes)
链接: arXiv | PDF
关键贡献: 提出 ShadowPEFT，在每层维护并行影子状态并反复演化以获得更丰富的隐藏表示。影子模块跨深度复用、可独立预训练，还支持分离部署模式，适合边缘计算场景。
相关技术: parameter-efficient fine-tuning, shadow module, layer-space refinement, low-rank adaptation, depth-shared module
代码/权重: 未提及

📄 Abstract 中文翻译

参数高效微调（PEFT）通过仅训练一小部分任务专用参数同时冻结预训练骨干，降低了大语言模型全参数微调的训练成本。然而，现有方法如 Low-Rank Adaptation（LoRA）通过向单个权重直接插入独立的低秩扰动来实现适配，导致适配的局部参数化。我们提出 ShadowPEFT，一个集中式 PEFT 框架，转而通过深度共享的影子模块执行层级精修。在每个 Transformer 层，ShadowPEFT 维护一个并行的影子状态，并反复演化以获得逐步更丰富的隐藏状态。这一设计将适配从分布式权重空间扰动转移到共享层空间精修过程。由于影子模块与骨干解耦，它可以跨深度复用、独立预训练，并可选择以分离模式部署，有利于边缘计算场景。在生成和理解基准上的实验表明，ShadowPEFT 在可比训练参数预算下匹配或优于 LoRA 和 DoRA。对影子预训练、跨数据集迁移、参数缩放、推理延迟和系统级评估的进一步分析表明，集中式层空间适配是传统低秩 PEFT 的有力且灵活的替代方案。

Tstars-Tryon 1.0: Robust and Realistic Virtual Try-On for Diverse Fashion Items

淘宝工业级虚拟试穿系统，支持8大品类、6张参考图组合，已在淘宝上线服务千万用户

作者: Mengting Chen et al.
来源: HuggingFace Trending (79 upvotes)
链接: arXiv | PDF
关键贡献: 商业级虚拟试穿系统，在极端姿态、严重光照变化、运动模糊等挑战场景下保持高成功率；支持最多 6 张参考图跨 8 个时尚品类的灵活多图组合；推理速度接近实时。
相关技术: virtual try-on, multi-image composition, inference optimization, data engine, fashion categories
代码/权重: 已开源 ✅（benchmark）

📄 Abstract 中文翻译

图像生成和编辑的最新进展为虚拟试穿开辟了新机遇。然而，现有方法仍难以满足复杂的现实需求。我们提出 Tstars-Tryon 1.0，一个商业级虚拟试穿系统，具备鲁棒性、真实感、多功能性和高效率。首先，我们的系统在极端姿态、严重光照变化、运动模糊等挑战场景下保持高成功率。其次，它提供高度逼真的结果，精细保留服装纹理、材质属性和结构特征，同时大幅避免常见的 AI 生成伪影。第三，除服装试穿外，我们的模型支持跨 8 个时尚品类的灵活多图组合（最多 6 张参考图），并协调控制人物身份和背景。第四，为克服商业部署的延迟瓶颈，我们的系统进行了大量推理速度优化，实现近乎实时的生成。这些能力由端到端模型架构、可扩展数据引擎、鲁棒基础设施和多阶段训练范式的集成系统设计支撑。大量评估和大规模产品部署表明 Tstars-Tryon 1.0 达到领先的整体性能。我们还发布了一个综合 benchmark 以支持未来研究。该模型已在淘宝 App 上工业级部署，服务百万用户，处理千万级请求。

TEMPO: Scaling Test-time Training for Large Reasoning Models

通过 EM 框架在测试时训练中引入周期性评论家重校准，解决 TTT 性能停滞和多样性崩塌

作者: Qingyang Zhang et al.
来源: HuggingFace Trending (25 upvotes)
链接: arXiv | PDF
关键贡献: 将测试时训练（TTT）中的策略精修与评论家重校准交替过程形式化为 EM 算法，揭示先前方法是省略了关键重校准步骤的不完整变体。OLMO3-7B 在 AIME 2024 上从 33.0% 提升到 51.1%。
相关技术: test-time training, EM algorithm, critic recalibration, evidence lower bound, reasoning models
代码/权重: 未提及

📄 Abstract 中文翻译

测试时训练（TTT）在推理期间对未标注测试实例调整模型参数，持续扩展离线训练无法触及的能力。尽管有初步收益，现有面向大型推理模型（LRM）的 TTT 方法很快达到瓶颈，无法从额外测试时计算中受益。在没有外部校准的情况下，自生成的奖励信号随着策略模型演化而日益漂移，导致性能停滞和多样性崩塌。我们提出 TEMPO，一种 TTT 框架，在未标注问题上交替进行策略精修，并在标注数据集上进行周期性评论家重校准。通过期望最大化（EM）算法形式化这一交替过程，我们发现先前方法可被解释为省略了关键重校准步骤的不完整变体。重新引入该步骤收紧了证据下界（ELBO），并使持续改进成为可能。在多种模型家族（Qwen3 和 OLMO3）和推理任务上，TEMPO 将 OLMO3-7B 在 AIME 2024 上从 33.0% 提升到 51.1%，将 Qwen3-14B 从 42.3% 提升到 65.8%，同时保持高多样性。

🔊 Audio LLM

CoInteract: Physically-Consistent Human-Object Interaction Video Synthesis via Spatially-Structured Co-Generation

（见重点推荐）

🧠 LLM Training

PlayCoder: Making LLM-Generated GUI Code Playable

多智能体闭环框架，让 LLM 生成的 GUI 代码真正可运行——当前最强模型 Play@3 接近零

作者: Zhiyuan Peng et al.
来源: HuggingFace Trending (20 upvotes)
链接: arXiv | PDF
关键贡献: 提出 Play@k 指标衡量 GUI 代码是否端到端可玩，并开发 PlayTester 智能体自动检测逻辑违规。实验揭示 10 个 SOTA 代码模型 Play@3 几乎为零，PlayCoder 闭环框架将 Play@3 提升到 20.3%。
相关技术: GUI code generation, Play@k metric, multi-agent repair, repository-aware benchmark, logic violation detection
代码/权重: 未提及

📄 Abstract 中文翻译

大语言模型在代码生成方面取得了强劲成果，但其生成 GUI 应用程序（尤其是游戏）的能力仍研究不足。现有 benchmark 主要通过测试用例评估正确性，这对 GUI 应用不够充分，因为这些系统是交互式的、事件驱动的，需要在用户动作序列中正确进行状态转换。因此，其评估应考虑交互流程和 UI 逻辑，而不仅是通过/失败结果。为研究这一问题，我们引入 PlayEval，一个基于 43 个多语言 GUI 应用（Python、TypeScript、JavaScript）构建的仓库感知 benchmark。不同于难以适配桌面环境的先前 GUI benchmark，PlayEval 覆盖六大 GUI 应用类别并直接支持代码生成评估。我们进一步提出 Play@k，一个衡量 k 个生成候选中是否有至少一个可以端到端无逻辑错误运行的指标。为支持可靠评估，我们开发了 PlayTester，一个基于 LLM 的智能体，执行任务导向的 GUI 游玩并自动检测逻辑违规。在 10 个 SOTA 代码 LLM 上的实验表明，尽管编译率很高，它们的 Play@3 接近零，暴露了生成逻辑正确 GUI 应用的重大弱点。为解决这一局限，我们提出 PlayCoder，一个多智能体、仓库感知框架，在闭环中生成、评估和迭代修复 GUI 应用代码。PlayCoder 大幅提升了开源和闭源模型的功能正确性和语义对齐，达到最高 38.1% Exec@3 和 20.3% Play@3。案例研究进一步表明它能发现传统指标遗漏的静默逻辑 bug 并通过定向编辑修复。

HP-Edit: A Human-Preference Post-Training Framework for Image Editing

将 RLHF 引入扩散图像编辑，用 VLM 构建 HP-Scorer 实现人类偏好对齐

作者: Fan Li et al.
来源: HuggingFace Trending (3 upvotes)
链接: arXiv | PDF
关键贡献: 首次将人类偏好对齐后训练系统性地应用于扩散图像编辑，构建 RealPref-50K 数据集和 HP-Scorer 自动评估器，作为奖励函数指导编辑模型的后训练。
相关技术: reinforcement learning from human feedback, diffusion editing, VLM-based scorer, preference dataset, image editing post-training
代码/权重: 未提及

📄 Abstract 中文翻译

常见的图像编辑任务通常采用强大的生成扩散模型作为现实内容编辑的主导范式。同时，尽管 Diffusion-DPO 和 Flow-GRPO 等强化学习方法进一步提升了生成质量，但将人类偏好强化学习（RLHF）高效应用于基于扩散的编辑仍很大程度上未被探索，原因在于缺乏可扩展的人类偏好数据集和适配多样编辑需求的框架。为填补这一空白，我们提出 HP-Edit，一个面向人类偏好对齐编辑的后训练框架，并引入 RealPref-50K，一个覆盖八种常见任务并平衡常见对象编辑的现实数据集。具体而言，HP-Edit 利用少量人类偏好评分数据和预训练的视觉大语言模型（VLM）来开发 HP-Scorer——一个自动的、人类偏好对齐的评估器。然后我们使用 HP-Scorer 既高效构建可扩展的偏好数据集，又作为编辑模型后训练的奖励函数。我们还引入 RealPref-Bench，一个评估现实编辑性能的 benchmark。大量实验表明，我们的方法显著增强了 Qwen-Image-Edit-2509 等模型，使其输出更紧密地与人类偏好对齐。

SafetyALFRED: Evaluating Safety-Conscious Planning of Multimodal Large Language Models

在具身规划中发现安全对齐缺口——模型能识别危险但不会主动规避

作者: Josue Torres-Fonseca et al.
来源: HuggingFace Trending (1 upvote)
链接: arXiv | PDF
关键贡献: 在 ALFRED 基准上加入六类厨房安全隐患构建 SafetyALFRED，发现模型在 QA 设置下能准确识别危险，但在具身规划中缓解成功率显著偏低，揭示静态 QA 评估不足以衡量物理安全性。
相关技术: embodied safety evaluation, hazard mitigation, multimodal planning, alignment gap, kitchen hazards
代码/权重: 已开源 ✅

📄 Abstract 中文翻译

多模态大语言模型越来越多地被用作交互环境中的自主智能体，但其主动应对安全隐患的能力仍然不足。我们引入 SafetyALFRED，基于具身智能体 benchmark ALFRED 构建，增加了六类现实厨房危险。虽然现有安全评估侧重于通过脱离实体的问答（QA）设置进行危险识别，我们在危险识别和通过具身规划进行主动风险缓解两个维度上评估了来自 Qwen、Gemma 和 Gemini 家族的十一个 SOTA 模型。实验结果揭示了显著的对齐缺口：虽然模型在 QA 设置中能准确识别危险，但这些危险的平均缓解成功率相比之下较低。我们的发现表明通过 QA 进行静态评估不足以衡量物理安全性，因此我们倡导将范式转向优先考虑具身环境中纠正性动作的 benchmark。我们在 https://github.com/sled-group/SafetyALFRED.git 上开源了代码和数据集。

LoopCTR: Unlocking the Loop Scaling Power for Click-Through Rate Prediction

训练多循环推理零循环，循环复用共享层解耦计算与参数增长

作者: Jiakai Tang et al.
来源: HuggingFace Trending (3 upvotes)
链接: arXiv | PDF
关键贡献: 引入循环缩放范式，通过递归复用共享模型层增加训练时计算，实现"训练多循环、推理零循环"策略。单次前向传播即超越所有基线，Oracle 分析揭示仍有 0.02-0.04 AUC 的提升空间。
相关技术: loop scaling, click-through rate, mixture-of-experts, hyper-connected residuals, process supervision
代码/权重: 未提及

📄 Abstract 中文翻译

通过堆叠更多参数来扩展基于 Transformer 的点击率（CTR）模型带来日益增长的计算和存储开销，在扩展雄心与严格的工业部署约束之间造成了越来越大的差距。我们提出 LoopCTR，引入循环缩放范式，通过递归复用共享模型层来增加训练时计算，将计算与参数增长解耦。LoopCTR 采用增强型三明治架构，配备超连接残差和混合专家（MoE），并在每个循环深度使用过程监督，将多循环收益编码到共享参数中。这实现了"训练多循环、推理零循环"策略，无需任何循环的单次前向传播已超越所有基线。在三个公共 benchmark 和一个工业数据集上的实验表明了 SOTA 性能。Oracle 分析进一步揭示了 0.02-0.04 AUC 的未开发空间，用更少循环训练的模型展现出更高的 oracle 上限，指向自适应推理的有前景前沿。

Reasoning-Aware AIGC Detection via Alignment and Reinforcement

REVEAL：先推理再判别的 AIGC 检测框架，用 RL 减少幻觉提升一致性

作者: Zhao Wang et al.
来源: HuggingFace Trending
链接: arXiv | PDF
关键贡献: 提出先生成可解释推理链再分类的 AIGC 检测框架 REVEAL，采用 SFT+RL 两阶段训练，RL 阶段提升准确性、逻辑一致性并减少幻觉。构建了多领域多作者场景的 AIGC-text-bank 数据集。
相关技术: AIGC detection, reasoning chain, reinforcement learning, supervised fine-tuning, hallucination reduction
代码/权重: 已开源 ✅

📄 Abstract 中文翻译

大语言模型的快速发展和广泛采用提升了对可靠 AI 生成内容（AIGC）检测的需求，这随着模型演进仍然具有挑战性。我们引入 AIGC-text-bank，一个包含多样 LLM 来源和作者场景的综合多领域数据集，并提出 REVEAL，一个在分类前先生成可解释推理链的检测框架。我们的方法使用两阶段训练策略：监督微调建立推理能力，随后强化学习提升准确性、改善逻辑一致性并减少幻觉。大量实验表明 REVEAL 在多个 benchmark 上实现了 SOTA 性能，为 AIGC 检测提供了鲁棒且透明的解决方案。项目在 https://aka.ms/reveal 开源。

Evaluation-driven Scaling for Scientific Discovery

SimpleTES：并行探索+反馈精修+局部选择，用 gpt-oss 模型发现 SOTA 科学解

作者: Haotian Ye et al.
来源: HuggingFace Trending
链接: arXiv | PDF
关键贡献: 提出 SimpleTES 框架，通过扩展评估驱动发现循环的维度释放显著增益。在 21 个科学问题上发现 SOTA 解——LASSO 加速超 2 倍，量子电路路由门开销减少 24.5%，发现新的 Erdős 最小重叠构造。后训练成功轨迹可使模型泛化到未见问题。
相关技术: evaluation-driven scaling, parallel exploration, feedback-driven refinement, scientific discovery, test-time scaling
代码/权重: 未提及

📄 Abstract 中文翻译

语言模型越来越多地用于科学发现，生成假设、提出候选方案、实现系统并迭代精修。这些试错循环的核心是评估：通过验证器、模拟器或任务专用评分函数获取候选方案反馈的过程。虽然先前工作强调了评估的重要性，但尚未明确阐述如何以有原则且有效的方式扩展评估驱动发现循环以推动科学发现边界，本文旨在解决这一问题。我们引入简单测试时评估驱动缩放（SimpleTES），一个通用框架，策略性地结合并行探索、反馈驱动精修和局部选择，揭示沿正确维度扩展评估驱动发现循环带来的显著增益。在跨六个领域的 21 个科学问题上，SimpleTES 使用 gpt-oss 模型发现了 SOTA 解，持续优于前沿模型基线和复杂优化管线。特别地，我们将广泛使用的 LASSO 算法加速了 2 倍以上，设计了减少 24.5% 门开销的量子电路路由策略，并发现了超越已知最佳结果的新 Erdős 最小重叠构造。除新发现外，SimpleTES 产生轨迹级历史，自然监督反馈驱动学习。当在成功轨迹上后训练时，模型不仅在已见问题上提升效率，还能泛化到未见问题，发现基础模型未能发现的解。

LLaTiSA: Towards Difficulty-Stratified Time Series Reasoning from Visual Perception to Semantics

四级认知复杂度时序推理分类法+83K 样本数据集，课程式微调实现 OOD 泛化

作者: Yueyang Ding et al.
来源: HuggingFace Trending (6 upvotes)
链接: arXiv | PDF
关键贡献: 形式化四级递增认知复杂度的时序推理分类法，构建 HiTSR 数据集（83K 样本），提出 LLaTiSA 模型整合可视化模式与精度校准数值表增强 VLM 的时间感知能力。
相关技术: time series reasoning, curriculum fine-tuning, vision-language models, hierarchical taxonomy, out-of-distribution generalization
代码/权重: 已开源 ✅

📄 Abstract 中文翻译

对时间序列的全面理解对大语言模型来说仍是一个重大挑战。当前研究受限于碎片化的任务定义和具有固有歧义的 benchmark，阻碍了严格评估和统一时序推理模型（TSRM）的发展。为弥合这一差距，我们通过递增认知复杂度的四级分类法形式化时序推理（TSR）。我们引入 HiTSR，一个分层时序推理数据集，包含 83K 样本，具有多样的任务组合和验证的思维链（CoT）轨迹。利用 HiTSR，我们提出 LLaTiSA，一个强大的 TSRM，整合可视化模式与精度校准数值表以增强视觉语言模型（VLM）的时间感知。通过多阶段课程微调策略，LLaTiSA 实现了卓越性能，并在多样 TSR 任务和现实场景中展现出鲁棒的分布外泛化能力。代码可在 https://github.com/RainingNovember/LLaTiSA 获取。

Fine-Tuning Small Reasoning Models for Quantum Field Theory

首个量子场论领域 7B 推理模型微调研究，发布 200M token QFT 推理轨迹

作者: Nathaniel S. Woodward et al.
来源: HuggingFace Trending
链接: arXiv | PDF
关键贡献: 首个针对理论物理的 7B 推理模型微调研究，开发数据生成管线合成 2500+ QFT 问题，对比 RL 与 SFT 实验并分析推理错误演化，公开数据管线和 200M token 推理轨迹。
相关技术: reinforcement learning fine-tuning, quantum field theory, synthetic data generation, reasoning traces, physics reasoning
代码/权重: 已开源 ✅

📄 Abstract 中文翻译

尽管大语言模型（LLM）在理论物理中的应用日益增长，但对训练这些模型时领域专用物理推理能力如何发展的学术探索甚少。为研究这一点，我们进行了首个专门面向理论物理的小型（7B 参数）推理模型微调研究。由于训练此类能力所需的开源可验证训练数据稀缺，我们开发了鲁棒的数据生成管线，既能创建合成问题，也能使现有人类创作的问题适合模型训练。选择量子场论（QFT）作为主要领域，我们生成了超过 2,500 个合成问题，以及从 arXiv 和标准教学资源中精选的人类改编问题集合。我们进行了强化学习（RL）和监督微调（SFT）实验，评估性能增益以及对其他物理领域的泛化。我们对微调前后的模型思维链进行了广泛分析，以理解 RL 和 SFT 过程中推理错误的演化。最后，我们公开发布了数据管线、可验证 QFT 训练数据和约 200M token 的 QFT 推理轨迹。

AJ-Bench: Benchmarking Agent-as-a-Judge for Environment-Aware Evaluation

智能体即评委基准，在搜索/数据系统/GUI 三领域系统评估过程验证能力

作者: Wentao Shi et al.
来源: HuggingFace Trending (11 upvotes)
链接: arXiv | PDF
关键贡献: 构建 AJ-Bench 覆盖搜索、数据系统、GUI 三领域 155 任务 516 标注轨迹，系统评估智能体在信息获取、状态验证和过程验证方面的能力，发现 Agent-as-a-Judge 持续优于 LLM-as-a-Judge 但仍存在重大开放挑战。
相关技术: agent-as-a-judge, environment-aware evaluation, process verification, state verification, information acquisition
代码/权重: 已开源 ✅

📄 Abstract 中文翻译

随着强化学习持续扩展基于大语言模型的智能体训练，在复杂环境中可靠验证智能体行为变得越来越具挑战性。现有方法依赖基于规则的验证器或 LLM-as-a-Judge 模型，难以在狭窄领域之外泛化。Agent-as-a-Judge 通过主动与环境和工具交互获取可验证证据来解决这一局限，但其能力仍探索不足。我们引入 benchmark AJ-Bench，在三个领域——搜索、数据系统和图形用户界面——系统评估 Agent-as-a-Judge，包含 155 个任务和 516 条标注轨迹。该 benchmark 全面评估评判智能体在信息获取、状态验证和过程验证方面的能力。实验表明其持续优于 LLM-as-a-Judge 基线，同时也揭示了基于智能体验证的重大开放挑战。数据和代码可在 https://aj-bench.github.io/ 获取。

🤖 AI Agents

Chat2Workflow: A Benchmark for Generating Executable Visual Workflows with Natural Language

从自然语言生成可执行可视化工作流的基准，智能体框架提升 5.34% 但距工业级仍有差距

作者: Yi Zhong et al.
来源: HuggingFace Trending (13 upvotes)
链接: arXiv | PDF
关键贡献: 首个从自然语言生成可执行可视化工作流的 benchmark，每个实例生成的 workflow 可直接部署到 Dify/Coze 等平台。提出鲁棒智能体框架缓解循环执行错误，但 SOTA 模型仍难以生成正确、稳定、可执行的 workflow。
相关技术: executable visual workflow, agentic framework, natural language to workflow, Dify/Coze deployment, multi-round interaction
代码/权重: 已开源 ✅

📄 Abstract 中文翻译

目前，可执行可视化工作流已成为现实工业部署的主流范式，提供强可靠性和可控性。然而，在当前实践中，此类工作流几乎完全通过人工工程构建：开发者必须精心设计工作流、为每步编写提示，并在需求变化时反复修订逻辑——使开发成本高昂、耗时且易错。为研究大语言模型是否能自动化这一多轮交互过程，我们引入 Chat2Workflow，一个从自然语言直接生成可执行可视化工作流的 benchmark，并提出鲁棒智能体框架以缓解循环执行错误。Chat2Workflow 基于大量真实业务工作流构建，每个实例设计为生成的工作流可转换并直接部署到 Dify 和 Coze 等实际工作流平台。实验结果表明，虽然 SOTA 语言模型通常能捕捉高层意图，但难以生成正确、稳定且可执行的工作流，尤其是在复杂或变化的需求下。尽管我们的智能体框架带来了最高 5.34% 的解决率提升，但仍存在的现实差距使 Chat2Workflow 成为推进工业级自动化的基础。代码在 https://github.com/zjunlp/Chat2Workflow 可用。

Recurrent Video Masked Autoencoders

循环计算+非对称掩码的视频表征学习，小模型参数效率提升 30 倍

作者: Daniel Zoran et al.
来源: HuggingFace Trending (1 upvote)
链接: arXiv | PDF
关键贡献: 提出基于循环 Transformer 的视频掩码自编码器 RVM，仅用像素重建损失训练，在小模型体制下无需知识蒸馏即可达到 SOTA，参数效率比竞争视频 MAE 高 30 倍，且线性计算成本支持长时间跨度稳定特征传播。
相关技术: recurrent computation, video masked autoencoder, asymmetric masking, temporal modeling, parameter efficiency
代码/权重: 未提及

📄 Abstract 中文翻译

我们提出循环视频掩码自编码器（RVM）：一种利用循环计算建模视频数据时间结构的新型视频表征学习方法。RVM 将非对称掩码目标与基于 Transformer 的循环神经网络结合，随时间聚合信息，仅通过简单的像素重建损失训练。这一设计产生了高效的"通用"编码器：RVM 在视频级任务（如动作分类、点追踪和物体追踪）上与 SOTA 视频模型（如 VideoMAE、V-JEPA）具有竞争力，同时在需要强几何和密集空间特征的任务上匹配或超越图像模型（如 DINOv2）。值得注意的是，RVM 在小模型体制下无需知识蒸馏即实现强劲性能，参数效率比竞争视频掩码自编码器高 30 倍。最后，我们证明 RVM 的循环特性允许以线性计算成本在长时间跨度上稳定传播特征，克服了标准时空注意力视频模型的一些局限性。消融研究进一步突出了驱动模型成功的因素，定性结果表明 RVM 学习了场景语义、结构和运动的丰富表征。

📌 其他值得关注

Volume Transformer: Revisiting Vanilla Transformers for 3D Scene Understanding

用最少修改将原生 Transformer 编码器适配 3D 场景，3D 旋转位置编码+体积分块

作者: Kadir Yilmaz et al.
来源: HuggingFace Trending
链接: arXiv | PDF
关键贡献: 将原生 Transformer 编码器以最小修改适配 3D 场景，提出体积分块 token 化和 3D 旋转位置编码（Volt）。引入数据高效训练方案（强增强+正则化+卷积教师蒸馏），在多数据集联合训练下 Volt 比领域特定 3D 骨干更受益于规模增长。
相关技术: volume patch tokenization, 3D rotary positional embeddings, data-efficient training, 3D semantic segmentation, distillation
代码/权重: 未提及

📄 Abstract 中文翻译

Transformer 已成为深度学习的通用基础，然而 3D 场景理解仍依赖具有强领域先验的专用骨干。这使该领域与更广泛的 Transformer 生态隔离，限制了新进展的迁移以及日益优化的软硬件栈的收益。为弥合这一差距，我们以最少修改将原生 Transformer 编码器适配 3D 场景。给定输入 3D 场景，我们将其划分为体积 patch token，使用完整全局自注意力处理，并通过 3D 旋转位置编码扩展注入位置信息。我们将所得模型称为 Volume Transformer（Volt），并将其应用于 3D 语义分割。在标准 3D benchmark 上朴素训练 Volt 会导致捷径学习，凸显了当前 3D 监督的有限规模。为克服这一问题，我们引入基于强 3D 增强、正则化和卷积教师蒸馏的数据高效训练方案，使 Volt 与 SOTA 方法竞争。然后我们通过多数据集联合训练扩展监督，表明 Volt 比领域特定 3D 骨干更受益于规模增长，在室内外数据集上实现 SOTA 结果。最后，当作为标准 3D 实例分割管线中的即插即用骨干使用时，Volt 再次刷新 SOTA，突显其作为 3D 场景理解简单、可扩展、通用骨干的潜力。

Generated on 2026-04-23 00:00 UTC | Sources: HuggingFace