AI Paper Daily | 2026-04-20

今日概览

共收录 30 篇论文 | Audio LLM: 4篇 | LLM Training: 15篇 | AI Agents: 10篇 | 其他值得关注: 1篇来源: HuggingFace(30)

重点推荐 ⭐

KnowRL: Boosting LLM Reasoning via Reinforcement Learning with Minimal-Sufficient Knowledge Guidance

将知识提示设计为"最小充分"问题，约束子集搜索构建紧凑知识点子集，1.5B刷新推理SOTA

作者: Linhao Yu et al.
来源: HuggingFace Trending (96 upvotes)
链接: arXiv | PDF
关键贡献: KnowRL将RL训练hint设计视为最小充分引导问题，原子知识点分解+约束子集搜索构建紧凑训练子集；发现并解决"剪枝交互悖论"。1.5B规模无提示推理达70.08（+9.63），加知识点后74.16。
相关技术: minimal-sufficient guidance, constrained subset search, pruning interaction paradox, atomic knowledge points, RLVR
代码/权重: 已开源 ✅

📄 Abstract 中文翻译

RLVR提升了大语言模型推理能力，但效果常受限于难题上严重的奖励稀疏性。近期基于提示的RL方法通过注入部分解或抽象模板缓解稀疏性，但通常通过增加更多token扩展引导，引入冗余、不一致和额外训练开销。我们提出KnowRL（知识引导强化学习），将提示设计视为最小充分引导问题的RL训练框架。训练中将引导分解为原子知识点(KPs)，使用约束子集搜索(CSS)构建紧凑的交互感知训练子集。进一步发现剪枝交互悖论——移除一个KP可能有帮助，但移除多个反而有害——并在该依赖结构下显式优化鲁棒子集筛选。从OpenMath-Nemotron-1.5B训练KnowRL-Nemotron-1.5B，在1.5B规模八个推理基准上始终优于强RL和提示基线。无KP提示推理达70.08平均准确率（+9.63），使用选定KPs后提升至74.16，该规模新SOTA。

统一多模态3D世界生成框架，开源权重代码，性能对标闭源Marble

作者: Team HY-World, Chenjie Cao et al.
来源: HuggingFace Trending (90 upvotes)
链接: arXiv | PDF
关键贡献: 支持文本/单视图/多视图/视频输入的3D世界生成；四阶段方法（全景→轨迹→扩展→合成）；WorldLens高性能3DGS渲染平台，自动IBL光照和碰撞检测。
相关技术: 3D Gaussian Splatting, panorama generation, feed-forward 3D prediction, keyframe view generation, IBL lighting
代码/权重: 已开源 ✅

📄 Abstract 中文翻译

HY-World 2.0推进了先前1.0项目的多模态世界模型框架，支持文本提示、单视图/多视图图像和视频输入生成3D世界表示。通过文本或单视图输入执行世界生成，合成高保真可导航3DGS场景，四阶段方法：a)HY-Pano 2.0全景生成，b)WorldNav轨迹规划，c)WorldStereo 2.0世界扩展，d)WorldMirror 2.0世界合成。引入关键创新增强全景保真度、3D场景理解和规划，升级配备一致性记忆的WorldStereo关键帧视图生成模型。WorldMirror通过改进架构和学习策略实现从多视图图像或视频的世界重建。WorldLens高性能3DGS渲染平台具有灵活引擎无关架构、自动IBL光照、高效碰撞检测和训练-渲染协同设计。多个基准上开源方法中达SOTA，结果可比闭源Marble。所有权重、代码和技术细节已发布。

Seedance 2.0: Advancing Video Generation for World Complexity

字节跳动统一多模态音视频生成模型，四模态输入，4-15秒音视频直出

作者: Team Seedance, De Chen et al.
来源: HuggingFace Trending (140 upvotes)
链接: arXiv | PDF
关键贡献: 统一高效大规模架构实现多模态音视频联合生成，支持文本/图像/音频/视频四模态输入；业界最全面多模态内容参考和编辑能力套件；专家评估和公开用户测试达领域领先。
相关技术: multi-modal audio-video generation, native video generation, content reference, multi-modal editing
代码/权重: 未开源

📄 Abstract 中文翻译

Seedance 2.0是2026年2月初在中国正式发布的原生多模态音视频生成模型，采用统一高效大规模架构进行多模态音视频联合生成，支持文本、图像、音频和视频四种输入模态，集成业界最全面的多模态内容参考和编辑能力套件之一。视频和音频生成所有关键子维度全面大幅提升，专家评估和公开用户测试表现与领域领先水平相当。支持4到15秒音视频直出，原生480p和720p分辨率，开放平台最多3个视频片段、9张图像和3个音频片段参考。另提供Fast加速变体专为低延迟场景设计。

SpatialEvo: Self-Evolving Spatial Intelligence via Deterministic Geometric Environments

3D几何确定性真值替代模型共识，零噪声自进化空间推理训练

作者: Dinging Li et al.
来源: HuggingFace Trending (62 upvotes)
链接: arXiv | PDF
关键贡献: 发现3D空间推理独有属性——真值可从几何确定性计算无需模型；确定性几何环境(DGE)替代模型共识伪标签；共享参数策略提问者/求解者协同进化，任务自适应调度器内生聚焦最弱类别。
相关技术: deterministic geometric environment, self-evolving framework, point cloud validation, task-adaptive scheduler, 3D spatial reasoning
代码/权重: 未提及

📄 Abstract 中文翻译

三维场景空间推理是具身智能核心能力，但持续改进受限于几何标注成本。自进化范式依赖模型共识构建伪标签导致训练强化而非纠正几何错误。我们发现3D空间推理独有属性可绕过此限制：真值是底层几何的确定性结果，可从点云和相机位姿精确计算无需模型参与。提出SpatialEvo框架以确定性几何环境(DGE)为核心，在明确几何验证规则下形式化16个空间推理任务类别，将未标注3D场景转化为零噪声交互式预言机，用客观物理反馈替代模型共识。共享参数策略在DGE约束下协同进化提问者和求解者，任务自适应调度器内生聚焦最弱类别产生无需手动设计的动态课程。九个基准3B和7B规模均达最高平均分，空间推理持续提升且通用视觉理解无退化。

DR^{3}-Eval: Towards Realistic and Reproducible Deep Research Evaluation

深度研究Agent现实可复现评测基准，静态研究沙盒+多维评估框架

作者: Qianqian Xie et al.
来源: HuggingFace Trending (30 upvotes)
链接: arXiv | PDF
关键贡献: 基于真实用户材料的多模态多文件报告生成评测基准，每任务配静态研究沙盒模拟开放网络；多维评估框架（信息召回/事实准确性/引用覆盖/指令遵循/深度质量）与人类判断高度一致；揭示检索鲁棒性和幻觉控制关键失败模式。
相关技术: deep research agent evaluation, multimodal report generation, research sandbox, citation coverage, hallucination control
代码/权重: 已开源 ✅

📄 Abstract 中文翻译

深度研究Agent(DRAs)旨在解决涉及规划、检索、多模态理解和报告生成的复杂长周期研究任务，但评估因动态网络环境和模糊任务定义仍具挑战。提出DR^3-Eval现实可复现基准，基于真实用户材料构建，每任务配静态研究沙盒语料库模拟开放网络复杂性同时保持完全可验证，包含支持性文档、干扰项和噪声。引入多维评估框架衡量信息召回、事实准确性、引用覆盖、指令遵循和深度质量，验证与人类判断一致。基于多个SOTA模型开发的多Agent系统实验表明DR^3-Eval极具挑战性，揭示检索鲁棒性和幻觉控制的关键失败模式。代码和数据已公开发布。

🔊 Audio LLM

MERRIN: A Benchmark for Multimodal Evidence Retrieval and Reasoning in Noisy Web Environments

噪声网络多模态证据检索推理基准，最强Agent也仅40.1%准确率

作者: Han Wang et al.
来源: HuggingFace Trending (6 upvotes)
链接: arXiv | PDF
关键贡献: 人工标注多模态证据检索推理基准，无模态提示自然语言查询、纳入视频音频欠探索模态、噪声冲突多模态证据检索；10个模型评估平均准确率22.3%，最强40.1%。
相关技术: multimodal evidence retrieval, multi-hop reasoning, noisy web search, video/audio modality, agentic search
代码/权重: 未提及

📄 Abstract 中文翻译

受搜索查询欠指定多跳特性和真实网络结果多模态异构常冲突特性驱动，引入MERRIN人工标注搜索增强Agent评估基准，衡量识别相关模态、检索多模态证据和在噪声网络源上执行多跳推理的能力。区别于先前工作：(1)无明确模态提示的自然语言查询，(2)纳入视频音频等欠探索模态，(3)要求检索复杂的常噪声或冲突多模态证据。评估十个模型驱动的多种搜索Agent（含GPT-5.4-mini、Gemini 3/3.1、Qwen3-4B/30B/235B），三种搜索设置。平均准确率22.3%，最佳40.1%。更强Agent因过度探索增益有限，常被冲突内容分散注意力。与人类相比消耗更多资源但准确率更低，主要因低效源选择和文本模态过度依赖。

统一可控V2A框架，视觉-文本冲突下精细控制

作者: Jianxuan Yang et al.
来源: HuggingFace Trending (1 upvote)
链接: arXiv | PDF
关键贡献: 统一多模态V2A框架实现视频/文本/参考音频精确控制；CLIP+时空音视频编码器联合视觉编码；时间-音色解耦；模态鲁棒训练方案和VGGSound-TVC基准。
相关技术: video-to-audio generation, temporal-timbre decoupling, cross-modal conflict, multimodal representation alignment, spatio-temporal encoding
代码/权重: 已开源 ✅

📄 Abstract 中文翻译

视频转音频生成最新进展使从视觉内容合成高质量音频成为可能，但鲁棒精细可控性仍具挑战。现有方法视觉-文本冲突下文本可控性弱，参考音频中时间音色信息纠缠导致风格控制不精确。提出ControlFoley统一多模态V2A框架实现视频文本和参考音频精确控制。引入联合视觉编码集成CLIP与时空音视频编码器改善对齐和文本可控性。时间-音色解耦抑制冗余时间线索保留判别性音色特征。模态鲁棒训练方案配备统一多模态表示对齐(REPA)和随机模态dropout。VGGSound-TVC基准评估视觉-文本冲突下文本可控性。多个V2A任务达SOTA，跨模态冲突下可控性优越，与工业V2A系统相比具竞争力。

SpotSound: Enhancing Large Audio-Language Models with Fine-Grained Temporal Grounding

音频事件时间定位模型，抑制幻觉时间戳

作者: Luoyi Sun et al.
来源: HuggingFace Trending (1 upvote)
链接: arXiv | PDF
关键贡献: SpotSound新训练目标抑制不存在事件的幻觉时间戳；SpotSound-Bench目标事件仅占约10%，“大海捞针"评估；时间定位SOTA同时保持通用音频语言任务鲁棒。
相关技术: temporal grounding, hallucinated timestamp suppression, audio event localization, long-form audio understanding
代码/权重: 已开源 ✅

📄 Abstract 中文翻译

大型音频语言模型在整体音频理解上展现卓越能力，但时间定位——精确定位事件在长音频中何时发生——仍不可靠。源于训练数据以缺乏精确时间戳的片段级监督为主，以及基准未模拟短事件被密集背景声掩盖的真实场景。介绍SpotSound为定位音频事件设计的音频语言模型，结合新训练目标专门抑制输入中不存在事件的幻觉时间戳。提出SpotSound-Bench挑战性时间定位基准，目标事件仅占每片段约10%，创建严格"大海捞针"评估。时间定位基准达SOTA，通用音频语言任务保持鲁棒。

🧠 LLM Training

TREX: Automating LLM Fine-tuning via Agent-Driven Tree-based Exploration

多Agent自动化LLM微调全流程，树状搜索建模多轮实验

作者: Zerun Ma et al.
来源: HuggingFace Trending (12 upvotes)
链接: arXiv | PDF
关键贡献: TREX多Agent系统自动化LLM训练全生命周期；多轮实验建模为搜索树，高效规划复用蒸馏；构建FT-Bench基准（10个真实场景任务），持续优化目标性能。
相关技术: multi-agent orchestration, tree-based exploration, automated fine-tuning, training strategy formulation, data recipe
代码/权重: 未提及

📄 Abstract 中文翻译

虽然LLMs已使AI研究Agent能执行孤立科学任务，但自动化复杂真实世界工作流如LLM训练仍是重大挑战。介绍TREX自动化LLM训练全生命周期的多Agent系统，通过协调Researcher和Executor协作无缝执行需求分析、开放域文献数据研究、训练策略制定、数据配方准备及模型训练评估。多轮实验过程建模为搜索树，使系统能高效规划探索路径、复用历史结果并从迭代试验蒸馏高层洞察。构建FT-Bench包含10个真实场景任务的基准，TREX持续优化目标任务模型性能。

RAD-2: Scaling Reinforcement Learning in a Generator-Discriminator Framework

扩散生成+RL判别器闭环规划，碰撞率降低56%

作者: Hao Gao et al.
来源: HuggingFace Trending (26 upvotes)
链接: arXiv | PDF
关键贡献: 统一生成器-判别器框架，扩散生成器+RL判别器重排序；时间一致组相对策略优化缓解信用分配；BEV-Warp高通量仿真。碰撞率降低56%。
相关技术: diffusion-based planning, generator-discriminator, closed-loop planning, BEV simulation, temporal consistency
代码/权重: 未提及

📄 Abstract 中文翻译

高级自动驾驶要求运动规划器建模多模态未来不确定性并在闭环交互中保持鲁棒。扩散规划器建模复杂轨迹分布有效但常受随机不稳定性影响且纯模仿学习缺乏纠正性负反馈。提出RAD-2统一生成器-判别器闭环规划框架：扩散生成器产生多样轨迹候选，RL优化判别器按长期驾驶质量重排序。解耦设计避免稀疏标量奖励直接用于全高维轨迹空间。引入时间一致组相对策略优化利用时间连贯性缓解信用分配，策略上生成器优化将闭环反馈转化为结构化纵向优化信号。BEV-Warp高通量仿真通过空间变换在鸟瞰图特征空间直接闭环评估。碰撞率比强扩散规划器降低56%，实际部署证明复杂城市交通中感知安全性和驾驶平顺性改善。

TRACER: Trace-Based Adaptive Cost-Efficient Routing for LLM Classification

LLM生产日志训练轻量代理，奇偶性门控成本路由

作者: Adam Rida
来源: HuggingFace Trending (6 upvotes)
链接: arXiv | PDF
关键贡献: 在LLM生产追踪上训练ML代理，奇偶性门控仅一致性超阈值时激活；可解释性制品描述处理区域/停滞/推迟；77类基准83-100%覆盖率，150类代理完全替代教师。
相关技术: adaptive routing, parity gate, surrogate model, production trace mining, cost-efficient inference
代码/权重: 已开源 ✅

📄 Abstract 中文翻译

每次调用LLM分类端点都产生保留在生产日志中的标记输入-输出对，构成免费不断增长的训练集。TRACER在LLM自身生产追踪上训练ML代理，通过奇偶性门控管理部署：仅当代理与LLM一致性超过用户指定阈值α时激活。生成可解释性制品描述代理处理哪些输入区域、在哪停滞及为何推迟。77类意图基准用Sonnet 4.6教师达83-100%覆盖率；150类基准代理完全替代教师；自然语言推理任务上奇偶性门控正确拒绝部署。

Towards Scalable Lightweight GUI Agents via Multi-role Orchestration

LAMO赋予轻量MLLM多角色编排能力，3B参与实际GUI工作流

作者: Ziwei Wang et al.
来源: HuggingFace Trending (0 upvotes)
链接: arXiv | PDF
关键贡献: LAMO通过角色导向数据合成和两阶段训练（SFT+RL）赋予轻量MLLM GUI知识和任务可扩展性；困惑度加权交叉熵优化知识蒸馏；LAMO-3B支持单体执行和MAS编排。
相关技术: multi-role orchestration, GUI agent, perplexity-weighted cross-entropy, role-oriented RL, lightweight MLLM
代码/权重: 未提及

📄 Abstract 中文翻译

MLLMs驱动的自主GUI Agent实现终端设备数字自动化，但先进方法在资源受限设备上部署成本高。轻量GUI Agent受限于有限容量和端到端情景学习下差的任务可扩展性。LAMO框架赋予轻量MLLM GUI特定知识和任务可扩展性，多角色编排扩展GUI自动化能力边界。结合角色导向数据合成与两阶段训练：困惑度加权交叉熵优化SFT进行知识蒸馏和视觉感知增强，角色导向协作探索RL。LAMO-3B支持单体执行和MAS式编排，与高级规划器配对可持续受益。

Lightning OPD: Efficient Post-Training for Large Reasoning Models with Offline On-Policy Distillation

离线策略蒸馏，30 GPU小时AIME 2024 69.9%，4倍加速

作者: Yecheng Wu et al.
来源: HuggingFace Trending (11 upvotes)
链接: arXiv | PDF
关键贡献: 发现"教师一致性"OPD关键条件——SFT和OPD须同一教师，违反引入不可约梯度偏差；Lightning OPD预计算SFT rollout教师log概率消除实时教师服务器；与标准OPD共享最优点且具隐式正则化。
相关技术: offline on-policy distillation, teacher consistency, gradient bias, SFT rollouts, post-training efficiency
代码/权重: 未提及

📄 Abstract 中文翻译

策略蒸馏(OPD)已成LLM高效后训练范式，但标准OPD全程需实时教师推理服务器造成大量基础设施开销。研究发现"教师一致性"条件——SFT和OPD必须使用同一教师模型，违反引入不可约梯度偏差导致收敛到次优不动点。Lightning OPD通过预计算SFT rollout教师log概率强制教师一致性，完全消除实时教师服务器。教师一致性下与标准OPD共享相同最优点，梯度差异有界且具隐式正则化效果。从SFT初始化Qwen3-8B-Base，30 GPU小时达AIME 2024 69.9%，4.0倍加速。

LongAct: Harnessing Intrinsic Activation Patterns for Long-Context Reinforcement Learning

长上下文高幅度激活引导稀疏更新，LongBench v2提升约8%

作者: Bowen Ping et al.
来源: HuggingFace Trending (6 upvotes)
链接: arXiv | PDF
关键贡献: 观察到长上下文query/key向量高幅度激活；受量化启发假设这些权重是有效优化关键驱动；从均匀更新转向显著性引导稀疏更新；LongBench v2约8%提升，GRPO/DAPO一致有效。
相关技术: saliency-guided sparse updates, high-magnitude activations, long-context RL, key-query activation, GRPO/DAPO
代码/权重: 未提及

📄 Abstract 中文翻译

RL已成增强LLM推理能力关键驱动力，但鲜有研究利用模型内在表示特征引导训练。观察到处理长上下文时query和key向量中存在高幅度激活，从模型量化确立此类高幅度激活关键性和长上下文推理固有稀疏结构的洞察出发，假设这些权重作为有效模型优化关键驱动。提出LongAct从均匀更新转向显著性引导稀疏更新，仅选择性更新与显著激活相关权重，LongBench v2约8%提升，RULER泛化增强，GRPO和DAPO等多种RL算法一致有效。

DharmaOCR: Specialized Small Language Models for Structured OCR

首次DPO用于OCR抑制退化，3B/7B超越所有开源商业基线

作者: Gabriel Pimenta de Freitas Cardoso et al.
来源: HuggingFace Trending (0 upvotes)
链接: arXiv | PDF
关键贡献: 首次DPO用于OCR以退化生成为拒绝样本惩罚循环行为；SFT强制严格JSON模式；DPO一致降低退化率(最高87.6%)；Full(7B)0.925、Lite(3B)0.911，退化率0.40%/0.20%。
相关技术: direct preference optimization, structured OCR, text degeneration suppression, JSON schema, AWQ quantization
代码/权重: 未提及

📄 Abstract 中文翻译

介绍DharmaOCR Full和Lite，一对联合优化转录质量、生成稳定性和推理成本的专用小型语言模型。提出DharmaOCR-Benchmark覆盖印刷、手写和法律/行政文档，以及统一评估协议衡量保真和结构并追踪文本退化为一等基准指标。实证表明退化不仅恶化质量还恶化生产性能——增加响应时间、降低吞吐量、膨胀计算成本。DPO在OCR的首次应用，显式使用退化生成为拒绝样例惩罚循环行为。结合SFT强制严格JSON模式(header/margin/footer/text)，DPO一致降低退化率(最高87.6%相对)同时保持或提升提取质量。Full(7B)0.925和Lite(3B)0.911分数，退化率0.40%和0.20%，超越所有评估的开源和商业基线。AWQ量化降低高达22%每页成本且质量损失可忽略。

Reinforcement Learning via Value Gradient Flow

将行为正则化RL建模为最优传输问题，值梯度引导粒子流

作者: Haoran Xu et al.
来源: HuggingFace Trending (5 upvotes)
链接: arXiv | PDF
关键贡献: 提出Value Gradient Flow(VGF)，将行为正则化RL建模为最优传输问题映射参考分布到值诱导最优策略分布；通过离散梯度流求解，消除显式策略参数化同时保持表达能力；支持自适应测试时缩放通过调节传输预算。
相关技术: value gradient flow, optimal transport, behavior-regularized RL, discrete gradient flow, test-time scaling
代码/权重: 已开源 ✅

📄 Abstract 中文翻译

研究行为正则化强化学习，其中向参考分布（离线RL中的数据集或LLM RL微调中的基础模型）的正则化对防止由错误分布外外推引起的值过度优化至关重要。现有方法依赖重参数化策略梯度（难以扩展到大型生成模型）或拒绝采样（过于保守）。提出Value Gradient Flow(VGF)，行为正则化RL的可扩展新范式，将其建模为将参考分布映射到值诱导最优策略分布的最优传输问题，通过离散梯度流求解，值梯度引导从参考分布初始化的粒子。VGF通过控制传输预算隐式施加正则化，消除显式策略参数化同时保持表达力和灵活性，支持通过调节传输预算实现自适应测试时缩放。在离线RL基准(D4RL, OGBench)和LLM RL任务上显著优于先前方法达SOTA。

From P(y|x) to P(y): Investigating Reinforcement Learning in Pre-train Space

在预训练空间P(y)上做RL，负样本强化是推理的异常有效驱动

作者: Yuqiao Tan et al.
来源: HuggingFace Trending (26 upvotes)
链接: arXiv | PDF
关键贡献: 提出PreRL在预训练空间P(y)上直接应用奖励驱动在线更新；发现log P(y)和log P(y|x)间强梯度对齐；揭示负样本强化(NSR)是推理的异常有效驱动，转移和反思思维增加14.89x和6.54x；提出Dual Space RL(DSRL)策略轮回先NSR-PreRL扩展推理视野再标准RL精细优化。
相关技术: pre-train space RL, negative sample reinforcement, gradient alignment, policy reincarnation, marginal distribution optimization
代码/权重: 未提及

📄 Abstract 中文翻译

虽然RLVR通过优化条件分布P(y|x)显著增强LLM推理，但其潜力从根本上受基础模型现有输出分布限制。在预训练空间优化边际分布P(y)解决此瓶颈，编码推理能力同时保留广泛探索容量。然而传统预训练依赖静态语料被动学习，分布偏移阻碍定向推理增强。引入PreRL直接对P(y)应用奖励驱动在线更新，理论和实证验证log P(y)和log P(y|x)间强梯度对齐，确立PreRL为标准RL的可行替代。进一步发现关键机制：PreRL中的负样本强化(NSR)作为推理的异常有效驱动，NSR-PreRL快速剪枝错误推理空间同时刺激内源性反思行为，转移和反思思维分别增加14.89x和6.54x。提出Dual Space RL(DSRL)策略轮回，先用NSR-PreRL扩展推理视野再转标准RL精细优化，持续优于强基线。

ToolOmni: Enabling Open-World Tool Use via Agentic Learning with Proactive Retrieval and Grounded Execution

开放世界工具使用的统一Agent框架，端到端执行成功率+10.8%

作者: Shouzheng Huang et al.
来源: HuggingFace Trending (0 upvotes)
链接: arXiv | PDF
关键贡献: ToolOmni统一Agent框架通过主动检索和落地执行实现开放世界工具使用；冷启动多轮交互数据SFT注入基础Agent能力；解耦多目标GRPO同时优化工具检索准确性和执行效能；端到端执行成功率超强基线+10.8%。
相关技术: open-world tool use, proactive retrieval, decoupled multi-objective GRPO, grounded execution, agentic learning
代码/权重: 未提及

📄 Abstract 中文翻译

LLMs通过利用外部工具增强问题解决能力，但在大规模不断演化的工具仓库开放世界场景中，依赖静态嵌入检索或参数记忆的现有方法难以对齐用户意图与工具语义或泛化到未见工具，导致工具检索和执行准确率次优。提出ToolOmni统一Agent框架通过推理循环中的主动检索和落地执行使LLMs适应开放世界工具使用。首先构建冷启动多轮交互数据集通过SFT注入基础Agent能力，然后引入基于解耦多目标GRPO算法的开放世界工具学习，同时优化LLMs的工具检索准确性和执行效能。ToolOmni在检索和执行上达SOTA，端到端执行成功率超强基线+10.8%，同时展现卓越鲁棒性和泛化能力。

Visual Preference Optimization with Rubric Rewards

基于实例特定评分标准的视觉偏好优化，macro average 82.69

作者: Ya-Qi Yu et al.
来源: HuggingFace Trending (1 upvote)
链接: arXiv | PDF
关键贡献: 提出rDPO基于实例特定评分标准的偏好优化框架；为每对图像-指令创建检查清单式评分标准评分任意策略响应；评分标准过滤将macro average提升至82.69，而基于结果的过滤降至75.82；rDPO达61.01显著超风格约束基线52.36。
相关技术: rubric-based preference optimization, instance-specific criteria, on-policy data construction, multimodal DPO, visual reasoning
代码/权重: 未提及

📄 Abstract 中文翻译

DPO的有效性取决于反映多模态任务中质量差异的偏好数据。现有管道依赖离策略扰动或粗粒度基于结果的信号，不适合细粒度视觉推理。提出rDPO基于实例特定评分标准的偏好优化框架，为每对图像-指令创建检查清单式评分标准包含必要和附加标准来评分任何可能策略的响应。指令-评分标准池离线构建在构建策略上数据时复用。公开奖励建模基准上评分标准提示大幅改善30B-A3B评判器并将其接近GPT-5.4。公开下游基准上评分标准过滤将macro average提升至82.69，而基于结果的过滤从81.14降至75.82。综合基准上rDPO达61.01，显著超风格约束基线52.36并超越59.48基础模型。

LeapAlign: Post-Training Flow Matching Models at Any Generation Step by Building Two-Step Trajectories

两步跳跃缩短流匹配轨迹，任意生成步骤直接梯度传播对齐人类偏好

作者: Zhanhao Liang et al.
来源: HuggingFace Trending (8 upvotes)
链接: arXiv | PDF
关键贡献: LeapAlign将长轨迹缩短为仅两步，每个跳跃跳过多个ODE采样步骤预测未来潜变量；随机化起止时间步实现任意生成步骤的高效稳定更新；微调Flux模型时一致优于SOTA GRPO方法和直接梯度方法。
相关技术: flow matching alignment, two-step trajectory, reward gradient propagation, ODE sampling, human preference fine-tuning
代码/权重: 未提及

📄 Abstract 中文翻译

本文聚焦流匹配模型与人类偏好的对齐。有前景的方式是通过直接反向传播奖励梯度通过流匹配的可微生成过程进行微调，但通过长轨迹反向传播导致高昂内存成本和梯度爆炸，直接梯度方法难以更新对最终图像全局结构至关重要的早期生成步骤。引入LeapAlign，通过设计两次连续跳跃将长轨迹缩短为仅两步，每次跳过多个ODE采样步骤并单步预测未来潜变量。通过随机化跳跃的起止时间步，LeapAlign在任意生成步骤实现高效稳定模型更新。为更好利用缩短轨迹，对更符合长生成路径的轨迹分配更高训练权重，并降低大幅梯度项的权重而非完全移除。微调Flux模型时LeapAlign一致优于SOTA GRPO和直接梯度方法，实现卓越的图像质量和图像-文本对齐。

QuantCode-Bench: A Benchmark for Evaluating LLMs’ Ability to Generate Executable Algorithmic Trading Strategies

量化交易策略生成基准，400任务评估LLM领域特定代码能力

作者: Alexey Khoroshilov et al.
来源: HuggingFace Trending (0 upvotes)
链接: arXiv | PDF
关键贡献: 提出QuantCode-Bench评估LLM生成可执行算法交易策略的能力，400个任务来自Reddit/TradingView/StackExchange/GitHub/合成源；多阶段管道检查语法正确性、回测执行、交易存在性和语义对齐；主要限制非语法而是交易逻辑的正确操作化、API使用和任务语义遵守。
相关技术: algorithmic trading generation, Backtrader framework, domain-specific code generation, multi-stage evaluation, semantic alignment
代码/权重: 未提及

📄 Abstract 中文翻译

LLMs在通用编程任务上表现强劲，但生成可执行算法交易策略的能力仍欠探索。不同于标准代码基准，交易策略生成需要同时掌握领域特定金融逻辑、专业API知识，以及生成不仅语法正确还能在历史数据上产生实际交易的代码。提出QuantCode-Bench，系统评估现代LLMs从英文描述生成Backtrader框架策略的基准，包含400个不同难度任务。评估通过多阶段管道检查语法正确性、回测执行成功、交易存在性以及使用LLM评判器的语义对齐。在单轮和多轮Agent设置下比较SOTA模型，分析不同管道阶段的失败模式，表明当前模型主要限制非语法相关，而是交易逻辑正确操作化、API使用和任务语义遵守。交易策略生成构成一类独特的领域特定代码生成任务。

🤖 AI Agents

Towards Long-horizon Agentic Multimodal Search

基于文件系统的视觉表示机制，100轮搜索达开源SOTA

作者: Yifan Du et al.
来源: HuggingFace Trending (19 upvotes)
链接: arXiv | PDF
关键贡献: 提出LMM-Searcher长周期多模态深度搜索框架，以文件式视觉表示机制为核心；将视觉资产卸载到外部文件系统映射为轻量文本UID；配备按需视觉加载策略的fetch-image工具；蒸馏12K高质量轨迹微调Qwen3-VL-Thinking-30A3B，100轮搜索达开源SOTA。
相关技术: file-based visual representation, progressive visual loading, cross-modal multi-hop reasoning, long-horizon search, UID mapping
代码/权重: 将开源

📄 Abstract 中文翻译

多模态深度搜索Agent通过迭代收集文本和视觉证据解决复杂任务展现巨大潜力，但管理异构信息和高token成本仍是关键挑战，现有方法常受上下文爆炸或关键视觉信号丢失困扰。提出LMM-Searcher长周期多模态深度搜索框架，以文件式视觉表示机制为核心，将视觉资产卸载到外部文件系统并映射为轻量文本标识符(UID)，缓解上下文开销同时保留多模态信息供未来访问。配备定制的fetch-image工具实现渐进式按需视觉加载策略用于主动感知。引入数据合成管道生成需要复杂跨模态多跳推理的查询，蒸馏12K高质量轨迹将Qwen3-VL-Thinking-30A3B微调为专业多模态深度搜索Agent。四个基准上成功扩展到100轮搜索，在MM-BrowseComp和MMSearch-Plus等挑战性长周期基准上达开源SOTA，跨不同基础模型展现强泛化性。

SpatialEvo: Self-Evolving Spatial Intelligence via Deterministic Geometric Environments

(见重点推荐)

ROSE: Retrieval-Oriented Segmentation Enhancement

即插即用检索增强分割框架，新/新兴实体分割gIoU超基线19.2

作者: Song Tang et al.
来源: HuggingFace Trending (2 upvotes)
链接: arXiv | PDF
关键贡献: 提出NEST任务聚焦分割训练数据中不存在的新实体和需最新外部信息的新兴实体；ROSE即插即用框架包含互联网RAG、文本提示增强器、视觉提示增强器和WebSense智能检索决策模块；NEST基准上超Gemini-2.0 Flash检索基线19.2 gIoU。
相关技术: novel emerging segmentation, retrieval-augmented generation, visual prompt enhancement, internet-sourced images, WebSense module
代码/权重: 未提及

📄 Abstract 中文翻译

基于MLLMs的分割模型如LISA常难以处理因训练数据缺失而无法识别的新实体或需最新外部信息的新兴实体。提出新新兴分割任务(NEST)并构建NEST基准。ROSE即插即用框架增强任意MLLM分割模型：互联网RAG模块用多模态输入检索实时网络信息，文本提示增强器用最新信息丰富模型感知，视觉提示增强器用网络图像补偿MLLM对未见实体的缺乏，WebSense模块智能决定何时调用检索。NEST基准上ROSE显著提升性能，超Gemini-2.0 Flash检索基线19.2 gIoU。

Exploration and Exploitation Errors Are Measurable for Language Model Agents

LM Agent的探索/利用错误可度量，推理模型通过最小harness工程显著改善

作者: Jaden Park et al.
来源: HuggingFace Trending (24 upvotes)
链接: arXiv | PDF
关键贡献: 设计可控环境量化LM Agent的探索和利用错误；可编程调整2D网格地图强调探索或利用难度；设计策略无关度量从观测动作量化两类错误；发现推理模型更有效解决问题且通过最小harness工程两类错误均可显著改善。
相关技术: exploration-exploitation tradeoff, measurable error metrics, embodied AI evaluation, harness engineering, DAG task structure
代码/权重: 已开源 ✅

📄 Abstract 中文翻译

LM Agent在从AI编码到物理AI的复杂开放式决策任务中日益使用，核心要求是有效探索问题空间和利用所获知识。然而在无法访问内部策略的情况下从观测动作系统区分和量化探索与利用仍具挑战。设计受实际具身AI启发的可控环境：部分可观测2D网格地图和未知任务DAG，地图生成可编程调整强调探索或利用难度。为策略无关评估设计度量从Agent动作量化探索和利用错误。评估多种前沿LM Agent发现即使SOTA模型也挣扎，不同模型展现独特失败模式。推理模型更有效解决问题且探索和利用均可通过最小harness工程显著改善。

Toward Autonomous Long-Horizon Engineering for ML Research

AiScientist系统，层次编排+文件总线实现长周期ML研究工程

作者: Guoxin Chen et al.
来源: HuggingFace Trending (34 upvotes)
链接: arXiv | PDF
关键贡献: 提出AiScientist系统用于自主长周期ML研究工程，核心原则：结构化编排+持久状态连续性；层次编排配合权限范围File-as-Bus工作区；顶层Orchestrator维护阶段级控制，专业Agent基于持久工件（分析/计划/代码/实验证据）而非对话交接重新定位；PaperBench提升10.54分，MLE-Bench Lite达81.82 Any Medal%。
相关技术: hierarchical orchestration, File-as-Bus workspace, long-horizon engineering, durable state continuity, specialized agent coordination
代码/权重: 未提及

📄 Abstract 中文翻译

自主AI研究进展迅速，但长周期ML研究工程仍困难：Agent需在数小时或数天中跨任务理解、环境搭建、实现、实验和调试维持连贯进展。引入AiScientist，基于简单原则构建的自主长周期ML研究工程系统：强长周期性能需结构化编排和持久状态连续性。结合层次编排与权限范围File-as-Bus工作区：顶层Orchestrator通过简洁摘要和工作区映射维护阶段级控制，专业Agent反复基于分析、计划、代码和实验证据等持久工件重新定位而非主要依赖对话交接，产生薄控制厚状态。两个互补基准上AiScientist PaperBench平均提升10.54分，MLE-Bench Lite达81.82 Any Medal%。消融表明File-as-Bus协议是性能关键驱动，移除后PaperBench降6.41分、MLE-Bench Lite降31.82分。

MM-WebAgent: A Hierarchical Multimodal Web Agent for Webpage Generation

层次化多模态网页生成Agent，协调AIGC元素生成实现全局一致性

作者: Yan Li et al.
来源: HuggingFace Trending (5 upvotes)
链接: arXiv | PDF
关键贡献: 提出MM-WebAgent层次化Agent框架，通过层次规划和迭代自反思协调AIGC元素生成；联合优化全局布局、局部多模态内容及其集成，产出连贯一致的网页；引入多模态网页生成基准和多级评估协议。
相关技术: hierarchical agentic framework, AIGC element coordination, multimodal webpage generation, iterative self-reflection, global layout optimization
代码/权重: 已开源 ✅

📄 Abstract 中文翻译

AIGC工具快速进展使图像、视频和可视化可按需创建用于网页设计，但直接集成到自动网页生成常导致风格不一致和全局连贯性差，因为元素孤立生成。提出MM-WebAgent层次化Agent框架通过层次规划和迭代自反思协调AIGC元素生成进行多模态网页生成，联合优化全局布局、局部多模态内容及其集成，产出连贯一致的网页。引入多模态网页生成基准和多级评估协议。实验表明MM-WebAgent优于代码生成和基于Agent的基线，尤其在多模态元素生成和集成上。

GlobalSplat: Efficient Feed-Forward 3D Gaussian Splatting via Global Scene Tokens

“先对齐再解码"原则，16K高斯实现4MB轻量3D重建

作者: Roni Itkin et al.
来源: HuggingFace Trending (21 upvotes)
链接: arXiv | PDF
关键贡献: 基于先对齐再解码原则，学习紧凑全局潜变量场景表示在解码显式3D几何前编码多视图输入并解决跨视图对应；不依赖预训练像素预测骨干或复用密集基线潜变量特征；粗到精训练课程防止表示膨胀，16K高斯仅4MB，单前向传播78ms内推理。
相关技术: global scene tokens, compact Gaussian allocation, coarse-to-fine curriculum, cross-view correspondence, feed-forward 3DGS
代码/权重: 未提及

📄 Abstract 中文翻译

基元的高效空间分配是3DGS的基础，直接决定表示紧凑性、重建速度和渲染保真度的协同。先前方案受限于局部启发式分配策略缺乏全局场景感知。当前前馈方法大多像素对齐或体素对齐，通过将像素反投影为密集视图对齐基元将冗余嵌入3D资产，输入视图增多时表示大小增加且全局一致性变弱。引入GlobalSplat，基于先对齐再解码原则，学习紧凑全局潜变量场景表示在解码显式3D几何前编码多视图输入并解决跨视图对应。关键是不依赖预训练像素预测骨干或复用密集基线潜变量特征，通过粗到精训练课程逐步增加解码容量原生防止表示膨胀。RealEstate10K和ACID上以仅16K高斯实现竞争性新视图合成，4MB轻量，单前向传播78ms内推理。

TIP: Token Importance in On-Policy Distillation

策略蒸馏中的token重要性双轴分类法，<20%token超全token训练

作者: Yuanda Xu et al.
来源: HuggingFace Trending (11 upvotes)
链接: arXiv | PDF
关键贡献: 提出TIP双轴分类法（学生熵×教师-学生分歧），发现高信息量token来自两个区域：高学生熵位置和低学生熵+高师生分歧位置；仅10%过度自信token训练即近匹配全token基线；50%熵采样匹配全token训练同时峰值内存降47%；长周期Agent规划基准上<20%token超全tokenOPD。
相关技术: token importance taxonomy, student entropy, teacher-student divergence, on-policy distillation, memory-efficient training
代码/权重: 已开源 ✅

📄 Abstract 中文翻译

策略蒸馏(OPD)在教师token级监督下用学生自身rollout训练学生，但并非所有token位置同等重要。我们问：OPD中哪些token携带最有用的学习信号？答案是高信息量token来自两个区域：高学生熵位置，以及低学生熵加高教师-学生分歧位置（学生过度自信且错误）。实证中学生熵是强一阶代理：50%熵采样token匹配或超越全token训练同时峰值内存降47%。但仅熵遗漏第二个重要区域——隔离低熵高分歧token时，少于10%token训练即近匹配全token基线，表明过度自信token携密集纠正信号。TIP双轴分类法组织这些发现并给出理论解释为何熵有用但结构不完整，启发结合不确定性和分歧的类型感知token选择规则。在Qwen3、Llama、Qwen2.5三个教师-学生对上以及DeepPlanning长周期Agent规划基准验证。

Free Geometry: Refining 3D Reconstruction from Longer Versions of Itself

测试时自进化3D重建，LoRA微调<2分钟持续提升SOTA模型

作者: Yuhang Dai et al.
来源: HuggingFace Trending (15 upvotes)
链接: arXiv | PDF
关键贡献: 提出Free Geometry框架使前馈3D重建模型测试时自进化无需3D真值；核心洞察：模型接收更多视图时产生更可靠一致的重建；通过遮罩帧构建自监督任务，强制完整和部分观察表示间跨视图特征一致性；轻量LoRA更新单GPU不到2分钟，持续改善Depth Anything 3和VGGT。
相关技术: test-time self-evolution, cross-view feature consistency, LoRA fine-tuning, self-supervised 3D reconstruction, feed-forward refinement
代码/权重: 已开源 ✅

📄 Abstract 中文翻译

前馈3D重建模型高效但僵化：训练后零样本推理无法适应测试场景，视觉合理的重建常含错误尤其在遮挡、镜面反射和模糊线索下。提出Free Geometry框架使前馈3D重建模型无需3D真值即可测试时自进化。核心洞察：模型接收更多视图时产生更可靠一致的重建。利用此属性，给定测试序列遮罩帧子集构建自监督任务，强制完整和部分观察表示间跨视图特征一致性同时保持被保留帧隐含的成对关系。自监督允许通过轻量LoRA更新快速再校准，单GPU不到2分钟。方法持续改善SOTA基础模型（含Depth Anything 3和VGGT），4个基准上相机位姿精度平均提升3.73%，点图预测提升2.88%。

📌 其他值得关注

Boosting Visual Instruction Tuning with Self-Supervised Guidance

自监督视觉任务增强指令微调，3-10%视觉接地指令即显著提升视觉推理

作者: Sophia Sirko-Galouchenko et al.
来源: HuggingFace Trending (6 upvotes)
链接: arXiv | PDF
关键贡献: 提出简单轻量方法用少量视觉接地自监督任务增强视觉指令微调；将旋转预测、颜色匹配、跨视图对应等经典自监督前置任务重构为图像-指令-响应三元组；无需人工标注、架构修改或额外训练阶段；仅3-10%视觉接地指令即一致改善视觉中心评估。
相关技术: self-supervised visual grounding, rotation prediction, color matching, cross-view correspondence, instruction tuning augmentation
代码/权重: 已开源 ✅

📄 Abstract 中文翻译

MLLMs在许多视觉语言任务上表现良好但常在需细粒度视觉推理的视觉中心问题上挣扎。近期证据表明这非视觉表示弱而是指令微调期间视觉信息利用不足——许多任务可仅用语言先验部分解决。提出简单轻量方法用少量视觉接地自监督任务增强视觉指令微调，将旋转预测、颜色匹配和跨视图对应等经典自监督前置任务重构为图像-指令-响应三元组，引入不依赖视觉证据就无法解决的监督。无需人工标注、架构修改或额外训练阶段。在多个模型、训练制度和基准上，注入仅3-10%此类视觉接地指令即一致改善视觉中心评估。发现表明视觉接地SSL任务的指令微调是改善MLLMs视觉推理的强力杠杆。

Generated on 2026-04-20 00:00 UTC | Sources: HuggingFace