AI Paper Daily | 2026-04-14

今日概览

共收录 8 篇论文 | Audio LLM: 0篇 | LLM Training: 6篇 | AI Agents: 0篇 | 通用热门: 2篇来源: HuggingFace(8)

今日新论文数量较少，大部分热门论文已在近期日报中报道。以下为尚未收录的新论文精选。

重点推荐 ⭐

WildDet3D: Scaling Promptable 3D Detection in the Wild

统一文本/点/框多模态提示的单目3D检测，配合百万级开放世界数据集，刷新多项SOTA

作者: Weikai Huang, Jieyu Zhang, Sijun Li et al.
来源: HuggingFace Trending (207 upvotes)
链接: arXiv | PDF
关键贡献: 提出统一几何感知架构 WildDet3D，原生支持文本、点和框三种提示模态并可在推理时融入深度辅助信号；构建迄今最大开放3D检测数据集 WildDet3D-Data（1M+ 图像，13.5K 类别），在开放世界和零样本评测中均达 SOTA，深度线索引入平均带来 +20.7 AP 提升效果显著。
相关技术: monocular 3D detection, promptable detection, depth-augmented inference, open-world 3D understanding
代码/权重: 未提及

📄 Abstract 中文翻译

从单张图像理解3D物体是空间智能的基石。迈向这一目标的关键步骤是单目3D目标检测——从输入RGB图像恢复物体的范围、位置和朝向。要在开放世界中实用，这样的检测器必须能够泛化到封闭类别之外、支持多种提示模态，并能在有几何线索时加以利用。现有方法的进展受到两个瓶颈制约：现有方法仅针对单一提示类型设计，缺乏融入额外几何线索的机制；且现有3D数据集仅覆盖受控环境中的狭窄类别，限制了开放世界迁移。

本工作同时解决了这两个问题。首先，我们提出 WildDet3D，一种统一几何感知架构，原生接受文本、点和框提示，并可在推理时融入辅助深度信号。其次，我们构建 WildDet3D-Data，迄今最大的开放3D检测数据集，通过从现有2D标注生成候选3D框并仅保留人工验证的框来构建，涵盖多样化真实场景中超过1M图像和13.5K类别。WildDet3D 在多个基准和设置下建立了新的SOTA。在开放世界设置中，在我们的 WildDet3D-Bench 上分别以文本和框提示达到 22.6/24.8 AP3D。在 Omni3D 上，分别达到 34.2/36.4 AP3D。在零样本评测中，在 Argoverse 2 和 ScanNet 上分别达到 40.3/48.9 ODS。值得注意的是，推理时融入深度线索带来了显著的额外增益（各设置平均 +20.7 AP）。

FORGE: Fine-grained Multimodal Evaluation for Manufacturing Scenarios

制造业场景多模态评估基准，揭示领域知识而非视觉定位才是瓶颈

作者: Xiangru Jian, Hao Xu, Wei Pang et al.
来源: HuggingFace Trending (82 upvotes)
链接: arXiv | PDF
关键贡献: 构建 FORGE 制造业多模态评估基准，结合2D图像和3D点云并标注细粒度领域语义（如精确型号）；评测18个SOTA MLLM后揭示关键发现——瓶颈不在视觉定位而在领域知识不足，颠覆了传统认知；用结构化标注微调3B模型即可在未知制造场景上获得高达90.8%的相对精度提升。
相关技术: manufacturing MLLM evaluation, fine-grained domain semantics, point cloud annotation, visual grounding analysis
代码/权重: 已开源 ✅

📄 Abstract 中文翻译

制造业正越来越多地采用多模态大语言模型（MLLMs）来实现从简单感知到自主执行的转变，然而现有评测无法反映真实制造环境的严苛要求。进展受到数据稀缺和现有数据集缺乏细粒度领域语义的阻碍。为弥合这一差距，我们引入 FORGE。我们首先构建了一个高质量多模态数据集，结合真实世界2D图像和3D点云，标注了细粒度领域语义（如精确型号）。随后在三个制造任务——工件验证、结构表面检查和装配验证——上评估了18个SOTA MLLM，揭示了显著的性能差距。与传统认知相反，瓶颈分析表明视觉定位并非主要限制因素，领域知识不足才是关键瓶颈，为未来研究指明了清晰方向。除评测外，我们展示了结构化标注可作为可操作的训练资源：在我们的数据上监督微调一个紧凑的3B参数模型，在未见制造场景上获得了高达90.8%的相对精度提升，为领域适配制造MLLMs提供了实用路径的初步证据。

🧠 LLM Training

EXAONE 4.5 Technical Report

LG 首个开源视觉语言模型，文档理解 + 韩语推理突出，256K 上下文

作者: Eunbi Choi, Kibong Choi, Sehyun Chun et al. (LG AI Research)
来源: HuggingFace Trending (33 upvotes)
链接: arXiv | PDF
关键贡献: LG AI Research 发布首个开源视觉语言模型 EXAONE 4.5，在已有 EXAONE 4.0 框架上集成专用视觉编码器实现原生多模态预训练；特别强调文档中心语料的数据策略，在文档理解和韩语语境推理上超越同规模 SOTA；支持最长 256K token 上下文，适用于企业级长文档场景。
相关技术: vision-language model, document understanding, long-context reasoning, multimodal pretraining
代码/权重: 未提及（“open-weight” 声明但技术报告发布时尚未提供链接）

📄 Abstract 中文翻译

本技术报告介绍 EXAONE 4.5，LG AI Research 发布的首个开源权重视觉语言模型。EXAONE 4.5 通过在现有 EXAONE 4.0 框架中集成专用视觉编码器来构建架构，实现对视觉和文本模态的原生多模态预训练。模型在大规模数据上训练并经过精心筛选，特别强调与 LG 战略应用领域对齐的文档中心语料。这一针对性数据设计在文档理解及相关任务上带来了显著的性能提升，同时在通用语言能力上也带来了广泛改善。EXAONE 4.5 将上下文长度扩展至 256K token，支持长上下文推理和企业级应用场景。对比评测表明 EXAONE 4.5 在通用基准上取得了具有竞争力的性能，在文档理解和韩语语境推理上超越了同规模的SOTA模型。

Bridging SFT and RL: Dynamic Policy Optimization for Robust Reasoning

DYPO 框架统一 SFT 和 RL，动态门控机制解决偏差-方差冲突，推理基准平均提升4.8%

作者: Taojie Zhu, Dongyang Xu, Ding Zou et al.
来源: HuggingFace Trending (1 upvote)
链接: arXiv | PDF
关键贡献: 对 SFT 和 RL 之间的偏差-方差权衡进行严格理论分析，提出 DYPO 统一框架，通过 Group Alignment Loss 降低 RL 梯度方差、多教师蒸馏纠正 SFT 拟合偏差、动态门控机制自适应切换稳定与探索模式；理论证明 DYPO 线性降低拟合偏差并最小化总体方差，实验在复杂推理基准上平均提升 4.8%，OOD 任务提升 13.3%。
相关技术: SFT-RL unification, group alignment loss, multi-teacher distillation, dynamic exploitation-exploration gating
代码/权重: 已开源 ✅

📄 Abstract 中文翻译

大语言模型（LLMs）的后训练范式，主要是监督微调（SFT）和强化学习（RL），面临一个根本困境：SFT 提供稳定性（低方差）但受高拟合偏差困扰，而 RL 实现探索（低偏差）却要应对高梯度方差。现有统一优化策略通常采用朴素损失加权，忽视了这些不同梯度信号之间的统计冲突。本文对这一偏差-方差权衡进行了严格的理论分析，并提出 DYPO（Dynamic Policy Optimization），一个旨在从结构上缓解这一冲突的统一框架。DYPO 集成三个核心组件：（1）Group Alignment Loss（GAL），利用内在群体动力学显著降低 RL 梯度方差；（2）多教师蒸馏机制，通过多样化推理路径纠正 SFT 拟合偏差；（3）动态利用-探索门控机制，基于奖励反馈自适应地在稳定 SFT 和探索 RL 之间进行仲裁。理论分析确认 DYPO 线性降低拟合偏差并最小化总体方差。大量实验表明 DYPO 显著优于传统顺序流程，在复杂推理基准上平均提升4.8%，在分布外任务上提升13.3%。

Fast-dVLM: Efficient Block-Diffusion VLM via Direct Conversion from Autoregressive VLM

直接将自回归VLM转换为块扩散模型，6倍推理加速且保持生成质量

作者: Chengyue Wu, Shiyi Lan, Yonggan Fu et al.
来源: HuggingFace Trending
链接: arXiv | PDF
关键贡献: 提出 Fast-dVLM，将自回归VLM直接转换为块扩散模型实现并行解码加速，无需先做纯文本扩散微调再接多模态；引入块大小退火、因果上下文注意力、自动截断掩码和视觉高效拼接等一系列多模态扩散适配技术；在11个多模态基准上生成质量与自回归版本匹配，配合 SGLang 和 FP8 量化实现6倍以上端到端推理加速。
相关技术: block diffusion, parallel decoding, KV-cache compatible, vision-language model acceleration
代码/权重: 未提及

📄 Abstract 中文翻译

视觉语言模型（VLMs）主要依赖自回归解码，逐token生成，从根本上限制了推理吞吐量。这一限制在机器人和自动驾驶等物理AI场景中尤为突出——VLM部署在边缘设备上以batch size 1运行，使得AR解码受限于内存带宽，硬件并行度未被充分利用。虽然块式离散扩散在并行文本生成方面展现了前景，但将其扩展到VLM仍面临挑战，因为需要同时处理连续视觉表示和离散文本token，同时保持预训练的多模态能力。我们提出 Fast-dVLM，一种基于块扩散的VLM，支持KV缓存兼容的并行解码和推测性块解码以加速推理。我们系统比较了两种AR到扩散的转换策略：两阶段方法（先对LLM骨干进行纯文本扩散微调再进行多模态训练）和直接方法（一步转换完整的AR VLM）。在可比训练预算下，直接转换通过利用已多模态对齐的VLM证明效率显著更高；因此我们采用它作为推荐方案。我们引入了一系列多模态扩散适配：块大小退火、因果上下文注意力、自动截断掩码和视觉高效拼接，共同实现了VLM场景下的有效块扩散。在11个多模态基准上的大量实验表明 Fast-dVLM 在生成质量上匹配其自回归对应版本。配合SGLang集成和FP8量化，Fast-dVLM 相比AR基线实现了超过6倍的端到端推理加速。

Fundus-R1: Training a Fundus-Reading MLLM with Knowledge-Aware Reasoning on Public Data

仅用公开数据训练眼底图像推理MLLM，RAG生成知识感知推理链+过程奖励强化学习

作者: Yuchuan Deng, Qijie Wei, Kaiheng Qian et al.
来源: HuggingFace Trending
链接: arXiv | PDF
关键贡献: 提出 Fundus-R1，首次尝试仅使用公开数据集训练推理增强的眼底图像MLLM，其中94%以上的数据仅有图像级标签；创新点包括：基于RAG的方法生成连接视觉发现与图像标签的知识感知推理链，以及在RLVR中引入鼓励自一致性的过程奖励；在三个眼底阅读基准上超越多个基线，包括未使用生成推理链的更强版本。
相关技术: fundus image understanding, RAG-based reasoning trace generation, RLVR with process reward, medical VLM
代码/权重: 未提及

📄 Abstract 中文翻译

眼底成像（如CFP、OCT和UWF）对于视网膜异常和疾病的早期检测至关重要。眼底图像理解因其知识密集型特性，是一项具有挑战性的视觉语言任务。解决该任务的新兴方法是在大量配对高质量临床报告的内部样本上，对通用多模态大语言模型进行后训练，采用监督微调（SFT）或带可验证奖励的强化学习（RLVR）。然而，这些宝贵样本不公开可获取，不仅阻碍了可复现性，也实际上将研究限制在少数参与者。为克服这一障碍，我们进行了一项新尝试：仅使用公开数据集训练一个推理增强的眼底图像MLLM，称为 Fundus-R1，其中超过94%的数据仅标注了图像级标签。我们的技术贡献有两方面。首先，提出基于RAG的方法来组合图像特定的、知识感知的推理链。这种自动生成的推理链将通用MLLM识别的视觉发现与图像标签通过眼科知识联系起来。其次，我们通过过程奖励增强RLVR，鼓励每次rollout中生成推理链的自一致性。在三个眼底阅读基准（FunBench、Omni-Fundus和GMAI-Fundus）上的大量实验表明，Fundus-R1明显优于多个基线，包括其通用对应模型（Qwen2.5-VL）和未使用生成推理链后训练的更强版本。

VisionFoundry: Teaching VLMs Visual Perception with Synthetic Images

仅用任务关键词自动合成视觉训练数据，MMVP提升7%、CV-Bench-3D提升10%

作者: Guanyu Zhou, Yida Yin, Wenhao Chai et al.
来源: HuggingFace Trending (6 upvotes)
链接: arXiv | PDF
关键贡献: 提出 VisionFoundry，一种任务感知合成数据生成管线，仅输入任务名称即可用LLM生成问答和T2I提示、用T2I模型合成图像、用专有VLM验证一致性，无需参考图像或人工标注；构建 VisionFoundry-10K 合成VQA数据集（10K三元组，10个任务），训练后在 MMVP 上提升7%、CV-Bench-3D 上提升10%，且不影响通用能力。
相关技术: synthetic visual data generation, task-aware pipeline, VLM visual perception, text-to-image verification
代码/权重: 未提及

📄 Abstract 中文翻译

视觉语言模型（VLMs）在空间理解和视角识别等视觉感知任务上仍然存在困难。一个可能的因素是自然图像数据集对低层视觉技能提供的监督有限。这引发了一个实际问题：仅从任务关键词（如"深度顺序"）生成的针对性合成监督，能否解决这些弱点？为研究这一问题，我们引入 VisionFoundry，一种任务感知合成数据生成管线，仅以任务名称为输入，使用大语言模型生成问题、答案和文生图（T2I）提示，然后用T2I模型合成图像并用专有VLM验证一致性，无需参考图像或人工标注。使用 VisionFoundry，我们构建了 VisionFoundry-10K，一个包含10K图像-问题-答案三元组的合成视觉问答数据集，涵盖10个任务。在 VisionFoundry-10K 上训练的模型在视觉感知基准上取得了显著提升：MMVP 上+7%，CV-Bench-3D 上+10%，同时保持了更广泛的能力，并随着数据规模增加展现出良好的缩放行为。

📌 其他值得关注

PinpointQA: A Dataset and Benchmark for Small Object-Centric Spatial Understanding in Indoor Videos

首个室内视频小物体空间理解基准，揭示MLLM在精细空间定位上的能力断层

作者: Zhiyu Zhou, Peilin Liu, Ruoxuan Zhang et al.
来源: HuggingFace Trending
链接: arXiv | PDF
关键贡献: 构建 PinpointQA，首个面向室内视频小物体空间理解的数据集和基准，包含1024个场景和10094个QA对，按四个递进难度任务组织；实验揭示MLLM在递进任务链上存在一致的能力断层，结构化空间预测（SSP）任务尤为困难；监督微调后尤其是困难任务上获得显著增益，表明数据集既是诊断基准也是有效训练资源。
相关技术: small object spatial understanding, indoor video QA, progressive task chain, ScanNet++
代码/权重: 已开源 ✅

📄 Abstract 中文翻译

室内视频中小物体中心的空间理解对多模态大语言模型（MLLMs）仍然是一个重大挑战，尽管它在物体搜索和辅助应用中具有实用价值。虽然现有基准在视频空间智能、具身推理和诊断感知方面取得了进展，但尚无基准直接评估模型能否在视频中定位目标物体并以足够精度表达其位置以供下游使用。本工作引入 PinpointQA，首个面向室内视频小物体中心空间理解的数据集和基准。基于 ScanNet++ 和 ScanNet200 构建，PinpointQA 包含1,024个场景和10,094个QA对，组织为四个递进挑战任务：目标存在验证（TPV）、最近参考识别（NRI）、细粒度空间描述（FSD）和结构化空间预测（SSP）。数据集从中间空间表示构建，QA对自动生成并经质量控制进一步精炼。在代表性MLLM上的实验揭示了递进链上一致的能力断层，SSP仍然特别困难。在 PinpointQA 上的监督微调带来了显著增益，尤其在更难的任务上，证明 PinpointQA 既是诊断基准也是有效的训练数据集。

Generated on 2026-04-14T00:00:00Z | Sources: HuggingFace Daily Papers