今日概览
共收录 24 篇论文 | Audio LLM: 1篇 | LLM Training: 15篇 | AI Agents: 6篇 | 其他值得关注: 1篇 来源: HuggingFace(24)
重点推荐 ⭐
TAPS: Task Aware Proposal Distributions for Speculative Sampling
首次系统研究投机采样中 draft 模型训练数据分布对加速效果的影响,提出基于置信度的路由和合并树验证策略
- 作者: Mohamad Zbib et al.
- 来源: HuggingFace Trending (115 upvotes)
- 链接: arXiv | PDF
- 关键贡献: 发现投机解码的 draft 模型在特定任务数据上训练后会出现明显的"专业化"现象——数学数据训练的 draft 在推理任务上最强,对话数据训练的在 MT-Bench 上最强。提出基于置信度的路由机制和合并树验证方法,在推理时组合多个专业化 draft 模型,实现全面最优的接受长度。
- 相关技术: speculative decoding, EAGLE-2, HASS, confidence-based routing, merged-tree verification
- 代码/权重: 未提及
📄 Abstract 中文翻译
投机解码 (Speculative Decoding) 通过让轻量级草稿模型 (draft model) 提出未来的 token,再由更大的目标模型并行验证,从而加速自回归生成。然而实际中,草稿模型通常在广泛的通用语料上训练,这使得投机解码的质量在多大程度上依赖于草稿训练分布尚不明确。我们使用在 MathInstruct、ShareGPT 和混合数据变体上训练的轻量级 HASS 和 EAGLE-2 草稿模型研究了这一问题,并在 MT-Bench、GSM8K、MATH-500 和 SVAMP 上进行评估。以接受长度衡量,任务特定训练产生了明显的专业化效应:MathInstruct 训练的草稿在推理基准上最强,而 ShareGPT 训练的草稿在 MT-Bench 上最强。混合数据训练提高了鲁棒性,但更大的混合并不在所有解码温度下都占优。我们还研究了如何在推理时组合专业化的草稿模型。朴素的检查点平均效果不佳,而基于置信度的路由优于单域草稿,合并树验证在两种骨干网络上均实现了最高的整体接受长度。最后,置信度比熵是更有用的路由信号:被拒绝的 token 往往具有更高的熵,但置信度能产生更清晰的基准级路由决策。这些结果表明,投机解码的质量不仅取决于草稿架构,还取决于草稿训练数据与下游工作负载之间的匹配,而专业化的草稿模型在推理时组合比在权重空间中合并更好。
Towards a Medical AI Scientist
首个面向临床医学的自主科研框架,通过临床医生-工程师协同推理机制实现从文献到论文的全流程自动化
- 作者: Hongtao Wu et al.
- 来源: HuggingFace Trending (64 upvotes)
- 链接: arXiv | PDF
- 关键贡献: 提出 Medical AI Scientist 框架,支持三种研究模式(论文复现、文献启发创新、任务驱动探索),逐步提升自主性。通过临床医生-工程师协同推理机制提高科研想法的可追溯性,在 171 个案例、19 个临床任务、6 种数据模态上显著优于商用 LLM。双盲评估显示生成的论文接近 MICCAI 水平。
- 相关技术: autonomous research agent, clinician-engineer co-reasoning, medical manuscript generation, multi-modal clinical data
- 代码/权重: 未提及
📄 Abstract 中文翻译
能够生成科学假设、进行实验并撰写论文的自主系统最近已成为加速科学发现的一个有前景的范式。然而,现有的 AI 科学家在很大程度上仍是领域无关的,限制了其在临床医学中的适用性——临床研究需要基于医学证据并涉及专业化的数据模态。在这项工作中,我们引入了 Medical AI Scientist,这是首个为临床自主研究量身定制的自主研究框架。它通过临床医生-工程师协同推理机制将广泛调研的文献转化为可操作的证据,实现临床根基化的想法生成,从而提高生成的研究想法的可追溯性。它还通过结构化的医学写作规范和伦理政策指导,实现基于证据的论文撰写。该框架支持 3 种研究模式:基于论文的复现、文献启发的创新和任务驱动的探索,分别对应不同层次的自动化科学探究,自主性逐步提升。大语言模型和人类专家的综合评估表明,Medical AI Scientist 生成的想法在 171 个案例、19 个临床任务和 6 种数据模态上的质量显著高于商用 LLM。同时,我们的系统在所提方法与其实现之间实现了强对齐,并展示了显著更高的可执行实验成功率。人类专家和斯坦福智能体审稿人的双盲评估表明,生成的论文接近 MICCAI 水平的质量,同时持续超越 ISBI 和 BIBM 的水平。所提出的 Medical AI Scientist 凸显了利用 AI 进行医疗领域自主科学发现的潜力。
LongCat-Next: Lexicalizing Modalities as Discrete Tokens
美团开源原生多模态模型,用统一离散 token 空间处理文本、视觉和音频,在单一自回归目标下实现"看、画、说"
- 作者: Meituan LongCat Team et al.
- 来源: HuggingFace Trending (43 upvotes)
- 链接: arXiv | PDF
- 关键贡献: 提出 Discrete Native Autoregressive (DiNA) 统一框架,核心创新是 dNaViT——一种支持任意分辨率的离散视觉 Transformer,将连续视觉信号转化为层次化离散 token。首次解决了离散视觉建模在理解任务上的长期性能天花板问题,并有效调和了理解与生成之间的矛盾。已开源。
- 相关技术: discrete visual tokenizer, native multimodal autoregressive, dNaViT, text-vision-audio unification, hierarchical discrete tokens
- 代码/权重: 已开源 ✅
📄 Abstract 中文翻译
主流的下一 Token 预测 (NTP) 范式通过离散自回归建模推动了大语言模型的成功。然而,当代多模态系统仍然以语言为中心,通常将非语言模态视为外部附件,导致架构碎片化和次优整合。为超越这一限制,我们引入 Discrete Native Autoregressive (DiNA),一个将多模态信息表示在共享离散空间中的统一框架,实现跨模态一致且有原则的自回归建模。一个关键创新是 Discrete Native Any-resolution Visual Transformer (dNaViT),它在任意分辨率下执行 tokenization 和 de-tokenization,将连续视觉信号转化为层次化离散 token。在此基础上,我们开发了 LongCat-Next,一个原生多模态模型,在单一自回归目标下以最少的模态特定设计处理文本、视觉和音频。作为工业级基础模型,它擅长在单一框架内"看、画、说",在广泛的多模态基准测试上取得了强劲性能。特别是,LongCat-Next 解决了离散视觉建模在理解任务上的长期性能天花板问题,并提供了一种统一方法来有效调和理解与生成之间的矛盾。作为迈向原生多模态的尝试,我们开源了 LongCat-Next 及其 tokenizer,希望促进社区的进一步研究和发展。GitHub: https://github.com/meituan-longcat/LongCat-Next
Gen-Searcher: Reinforcing Agentic Search for Image Generation
首个搜索增强图像生成智能体,通过多跳搜索收集知识后生成图像,在知识密集型场景大幅提升生成质量
- 作者: Kaituo Feng et al.
- 来源: HuggingFace Trending (43 upvotes)
- 链接: arXiv | PDF
- 关键贡献: 首次训练搜索增强的图像生成智能体,构建了 KnowGen 基准测试。通过 SFT + 双奖励(文本+图像)的智能体强化学习训练,在 KnowGen 上提升约 16 分,在 WISE 上提升约 15 分。数据、模型和代码全部开源。
- 相关技术: search-augmented generation, multi-hop reasoning, agentic reinforcement learning, GRPO, dual reward feedback
- 代码/权重: 已开源 ✅
📄 Abstract 中文翻译
近期的图像生成模型在生成高保真和照片级真实图像方面表现出强大能力。然而,它们从根本上受到冻结的内部知识的限制,因此在知识密集型或需要最新信息的现实场景中经常失败。在本文中,我们提出 Gen-Searcher,作为训练搜索增强图像生成智能体的首次尝试,该智能体执行多跳推理和搜索,收集生成所需的文本知识和参考图像。为实现这一目标,我们构建了定制的数据管道并策划了两个高质量数据集 Gen-Searcher-SFT-10k 和 Gen-Searcher-RL-6k,包含多样的搜索密集型提示和对应的真实合成图像。我们进一步引入 KnowGen,一个明确要求搜索外部知识进行图像生成的综合基准,从多个维度评估模型。基于这些资源,我们用 SFT 训练 Gen-Searcher,随后进行带有双奖励反馈的智能体强化学习——结合基于文本和基于图像的奖励,为 GRPO 训练提供更稳定和信息丰富的学习信号。实验表明 Gen-Searcher 带来了显著提升,在 KnowGen 上将 Qwen-Image 提高约 16 分,在 WISE 上提高 15 分。我们希望这项工作能作为图像生成搜索智能体的开放基础,我们完全开源我们的数据、模型和代码。
On Token’s Dilemma: Dynamic MoE with Drift-Aware Token Assignment for Continual Learning of Large Vision Language Models
揭示 MoE 持续学习中的"路由漂移"问题根源,提出 token 级感知的动态 MoE 框架,遗忘率降低 12%
- 作者: Chongyang Zhao et al.
- 来源: HuggingFace Trending (27 upvotes)
- 链接: arXiv | PDF
- 关键贡献: 在 token 级别分析了 MoE 持续学习中的遗忘机制,发现"token 困境"——新任务数据中的模糊 token 和旧 token 被错误路由到新专家会导致灾难性遗忘。提出 LLaVA-DyMoE,通过漂移感知的 token 分配引导和路由分数正则化,平均最终精度提升超 7%,遗忘率降低 12%。
- 相关技术: Mixture of Experts, routing drift, token-level assignment, continual instruction tuning, LLaVA
- 代码/权重: 未提及
📄 Abstract 中文翻译
多模态持续指令微调旨在通过从新数据中学习来不断增强大型视觉语言模型 (LVLM),同时不遗忘先前获得的知识。混合专家 (MoE) 架构通过增量添加新专家和扩展路由器同时保持现有组件冻结,自然地促进了这一目标。然而,尽管专家被隔离,基于 MoE 的持续学习器仍然因路由漂移 (routing-drift) 而遭受遗忘:旧任务的 token 被错误地吸引到新添加的专家上,导致先前任务的性能下降。我们在 token 级别分析了这种失败模式,并揭示了 token 困境:新任务数据中的模糊 token 和旧 token 提供的学习收益极小,但当它们在训练期间因模糊的路由分配被路由到新专家时,会引发遗忘。基于此,我们提出 LLaVA-DyMoE,一个通过漂移感知的 token 分配来增量扩展 MoE 的动态框架。我们通过路由分数分布来表征 token 类型,并应用有针对性的正则化。具体而言,token 级分配引导将模糊 token 和旧 token 引导远离新专家,以保持已建立的路由模式并缓解路由漂移;而互补的路由分数正则化则强制专家组分离并促进新专家的专业化。大量实验表明,我们的 LLaVA-DyMoE 有效缓解了路由漂移引发的遗忘,在平均最终精度上获得超过 7% 的提升,遗忘率降低 12%。
🔊 Audio LLM
LongCat-Next: Lexicalizing Modalities as Discrete Tokens
(已在重点推荐中详细介绍)
🧠 LLM Training
ResAdapt: Adaptive Resolution for Efficient Multimodal Reasoning
输入端自适应分辨率分配框架,相同视觉预算下支持 16 倍更多帧,性能提升超 15%
- 作者: Huanxuan Liao et al.
- 来源: HuggingFace Trending (14 upvotes)
- 链接: arXiv | PDF
- 关键贡献: 提出从输入端而非编码后表示来解决视觉 token 膨胀问题。通过轻量级 Allocator 学习每帧应分配的视觉预算,用 Cost-Aware Policy Optimization (CAPO) 训练。在相同视觉预算下支持 16 倍更多帧并实现 15% 以上性能提升。
- 相关技术: visual token budget allocation, contextual bandit, CAPO, input-side adaptation, video QA
- 代码/权重: 已开源 ✅
📄 Abstract 中文翻译
多模态大语言模型 (MLLM) 通过扩大输入保真度来实现更强的视觉理解,但由此产生的视觉 token 增长使得同时维持高空间分辨率和长时间上下文变得不可承受。我们认为瓶颈不在于编码后表示如何压缩,而在于编码器接收的像素量,并通过 ResAdapt 来解决——一个输入端自适应框架,学习在编码前每帧应接收多少视觉预算。ResAdapt 将轻量级 Allocator 与未修改的 MLLM 骨干耦合,使骨干保留其原生视觉 token 接口,同时接收经算子变换的输入。我们将分配问题形式化为上下文 bandit,并用成本感知策略优化 (CAPO) 训练 Allocator,将稀疏的 rollout 反馈转化为稳定的精度-成本学习信号。在预算受控的视频问答、时序定位和图像推理任务中,ResAdapt 改善了低预算工作点,并通常处于或接近效率-精度前沿,在积极压缩下的推理密集型基准上获得最明显的提升。值得注意的是,ResAdapt 在相同视觉预算下支持多达 16 倍的帧数,同时带来超过 15% 的性能提升。代码可在 https://github.com/Xnhyacinth/ResAdapt 获取。
Marco DeepResearch: Unlocking Efficient Deep Research Agents via Verification-Centric Design
以验证为核心的深度研究智能体,8B 模型在 BrowseComp 上超越或逼近 30B 级智能体
- 作者: Bin Zhu et al.
- 来源: HuggingFace Trending (10 upvotes)
- 链接: arXiv | PDF
- 关键贡献: 在 QA 数据合成、轨迹构建和测试时缩放三个层面引入验证机制。8B 规模的深度研究智能体在 BrowseComp 和 BrowseComp-ZH 等最具挑战性的基准上显著超越同规模模型,在最大 600 次工具调用预算下甚至超越或逼近 30B 级智能体(如通义 DeepResearch-30B)。
- 相关技术: verification-centric design, graph-based QA synthesis, trajectory construction, test-time scaling, deep research agent
- 代码/权重: 未提及
📄 Abstract 中文翻译
深度研究智能体自主进行开放式调查,将复杂的信息检索与跨多源的多步推理相结合,以解决现实世界的问题。为在长时域任务上维持这种能力,可靠的验证在训练和推理期间都至关重要。现有范式的一个主要瓶颈源于 QA 数据合成、轨迹构建和测试时缩放中缺乏显式验证机制。每个阶段引入的错误会向下游传播并降低整体智能体性能。为解决这一问题,我们提出 Marco DeepResearch,一个通过三层验证中心框架设计优化的深度研究智能体:(1) QA 数据合成:在基于图和基于智能体的 QA 合成中引入验证机制,控制问题难度同时确保答案唯一且正确;(2) 轨迹构建:设计验证驱动的轨迹合成方法,将显式验证模式注入训练轨迹;(3) 测试时缩放:在推理时使用 Marco DeepResearch 自身作为验证器,有效提高困难问题上的性能。大量实验结果表明,我们提出的 Marco DeepResearch 智能体在大多数具有挑战性的基准测试上显著超越 8B 规模的深度研究智能体,如 BrowseComp 和 BrowseComp-ZH。关键是,在最大 600 次工具调用的预算下,Marco DeepResearch 甚至超越或逼近多个 30B 规模的智能体,如通义 DeepResearch-30B。
Kernel-Smith: A Unified Recipe for Evolutionary Kernel Optimization
LLM 驱动的 GPU kernel 进化优化框架,235B-RL 版本在 KernelBench 上超越 Gemini-3.0-pro 和 Claude-4.6-opus
- 作者: He Du et al.
- 来源: HuggingFace Trending (15 upvotes)
- 链接: arXiv | PDF
- 关键贡献: 结合进化搜索智能体和面向进化的后训练方法,将长时域进化轨迹转化为步级监督和 RL 信号。Kernel-Smith-235B-RL 在 Nvidia Triton 后端的 KernelBench 上达到 SOTA,超越 Gemini-3.0-pro 和 Claude-4.6-opus。已对 SGLang 和 LMDeploy 产出实际贡献。
- 相关技术: GPU kernel generation, evolutionary optimization, Triton, reinforcement learning, MACA backend
- 代码/权重: 未提及
📄 Abstract 中文翻译
我们提出 Kernel-Smith,一个高性能 GPU kernel 和算子生成框架,结合了稳定的评估驱动进化智能体和面向进化的后训练方案。在智能体方面,Kernel-Smith 维护一个可执行候选种群,利用表现最佳且多样化的程序存档以及编译、正确性和加速的结构化执行反馈进行迭代改进。为使搜索可靠,我们为 NVIDIA GPU 上的 Triton 和 MetaX GPU 上的 Maca 构建了特定后端的评估服务。在训练方面,我们通过保留正确性保持的高增益修订,将长时域进化轨迹转化为步级监督和强化学习信号,使模型在进化循环内优化为强局部改进器,而非一次性生成器。在统一的进化协议下,Kernel-Smith-235B-RL 在 Nvidia Triton 后端的 KernelBench 上达到最先进的整体性能,获得最佳平均加速比,超越包括 Gemini-3.0-pro 和 Claude-4.6-opus 在内的前沿专有模型。我们进一步在 MetaX MACA 后端验证了该框架,其中 Kernel-Smith-MACA-30B 超越了 DeepSeek-V3.2-think 和 Qwen3-235B-2507-think 等大规模对手,凸显了跨异构平台无缝适配的潜力。除基准结果外,相同工作流还为 SGLang 和 LMDeploy 等生产系统产出了上游贡献,证明 LLM 驱动的 kernel 优化可以从受控评估转移到实际部署。
Make Geometry Matter for Spatial Reasoning
通过几何释放遮蔽和几何引导融合,让 VLM 真正利用 3D 几何 token 进行空间推理
- 作者: Shihua Zhang et al.
- 来源: HuggingFace Trending (21 upvotes)
- 链接: arXiv | PDF
- 关键贡献: 发现 VLM 即使注入了几何 token 仍倾向于依赖 2D 视觉线索。提出 GeoSR 框架:(1) 训练时策略性遮蔽 2D 视觉 token 迫使模型利用几何信息;(2) 门控路由机制自适应放大几何 token 在关键区域的贡献。在静态和动态空间推理基准上均达到新 SOTA。
- 相关技术: geometry token fusion, spatial reasoning, gated routing, 3D foundation model, vision masking
- 代码/权重: 未提及
📄 Abstract 中文翻译
得益于大规模训练,视觉语言模型 (VLM) 在图像和视频理解方面取得了强大的表现,但其在静态场景和动态视频中执行空间推理的能力仍然有限。最近的进展尝试通过将预训练 3D 基础模型的几何 token 注入 VLM 来处理这一限制。然而,我们观察到在这条研究路线中,朴素的 token 融合加标准微调往往使这些几何线索在空间推理中未被充分利用,因为 VLM 倾向于严重依赖 2D 视觉线索。在本文中,我们提出 GeoSR,一个旨在让几何真正发挥作用的框架,鼓励 VLM 主动利用几何 token 进行推理。GeoSR 引入两个关键组件:(1) 几何释放遮蔽 (Geometry-Unleashing Masking),在训练期间策略性地遮蔽部分 2D 视觉 token,以削弱非几何捷径并迫使模型查询几何 token 进行空间推理;(2) 几何引导融合 (Geometry-Guided Fusion),一种门控路由机制,在几何证据关键的区域自适应地放大几何 token 的贡献。这些设计共同释放了几何 token 在空间推理任务中的潜力。在静态和动态空间推理基准上的大量实验表明,GeoSR 持续优于先前方法并建立了新的最先进性能。项目页面可在 https://suhzhang.github.io/GeoSR/ 获取。
GEditBench v2: A Human-Aligned Benchmark for General Image Editing
1200 条真实用户查询覆盖 23 种编辑任务的综合基准,配套开源视觉一致性评估模型超越 GPT-5.1
- 作者: Zhangqi Jiang et al.
- 来源: HuggingFace Trending (26 upvotes)
- 链接: arXiv | PDF
- 关键贡献: 构建包含 1200 条真实用户查询、覆盖 23 种任务(含开放集类别)的综合图像编辑基准。提出开源成对视觉一致性评估模型 PVC-Judge,通过两条区域解耦的偏好数据合成管道训练,在评估性能上超越 GPT-5.1。对 16 个前沿编辑模型进行基准测试。
- 相关技术: image editing benchmark, visual consistency assessment, pairwise preference model, region-decoupled synthesis, open-set editing
- 代码/权重: 未提及
📄 Abstract 中文翻译
图像编辑的最新进展使模型能够处理复杂指令并实现令人印象深刻的真实感。然而,现有评估框架滞后:当前基准任务覆盖范围狭窄,而标准指标未能充分捕获视觉一致性,即编辑图像与原始图像之间身份、结构和语义连贯性的保持。为解决这些限制,我们引入 GEditBench v2,一个包含 1200 条真实用户查询、覆盖 23 种任务的综合基准,包括一个专门的开放集类别,用于超出预定义任务的无约束、分布外编辑指令。此外,我们提出 PVC-Judge,一个开源的成对视觉一致性评估模型,通过两条新颖的区域解耦偏好数据合成管道训练。我们还使用专家标注的偏好对构建了 VCReward-Bench,以评估 PVC-Judge 在视觉一致性评估上与人类判断的对齐程度。实验表明,我们的 PVC-Judge 在开源模型中达到了最先进的评估性能,甚至在平均水平上超越了 GPT-5.1。最后,通过对 16 个前沿编辑模型进行基准测试,我们表明 GEditBench v2 能够实现更符合人类对齐的评估,揭示了当前模型的关键限制,并为推进精确图像编辑提供了可靠的基础。
HandX: Scaling Bimanual Motion and Interaction Generation
双手运动与交互生成的统一基础设施,包含新采集的精细手指动态数据集和 LLM 辅助标注
- 作者: Zimu Zhang et al.
- 来源: HuggingFace Trending (9 upvotes)
- 链接: arXiv | PDF
- 关键贡献: 构建了涵盖数据、标注和评估的统一双手运动生成基础设施。提出解耦式标注策略——先提取运动特征(接触事件、手指弯曲),再利用 LLM 推理生成细粒度语义描述。观察到明确的缩放趋势:更大模型 + 更大高质量数据集 = 更语义连贯的双手运动。
- 相关技术: bimanual motion generation, finger dynamics, motion-capture, decoupled annotation, diffusion model
- 代码/权重: 已开源 ✅
📄 Abstract 中文翻译
人体运动合成已迅速发展,但逼真的手部运动和双手交互仍未被充分探索。全身模型通常忽略了驱动灵巧行为的细粒度线索——手指关节、接触时序和双手协调,而现有资源缺乏捕获细微手指动态和协作的高保真双手序列。为填补这一空白,我们提出 HandX,一个涵盖数据、标注和评估的统一基础设施。我们整合并筛选现有数据集以保证质量,并采集了一个新的动作捕捉数据集,针对欠代表的双手交互和详细的手指动态。对于可扩展的标注,我们引入了解耦策略,先提取代表性运动特征(如接触事件和手指弯曲),然后利用大语言模型的推理能力生成与这些特征对齐的细粒度、语义丰富的描述。基于所得数据和标注,我们用多种条件模式对扩散和自回归模型进行了基准测试。实验展示了高质量的灵巧运动生成,并由我们新提出的手部专用指标支持。我们进一步观察到明确的缩放趋势:在更大、更高质量数据集上训练的更大模型产生更语义连贯的双手运动。我们的数据集已发布以支持未来研究。
GraphWalker: Agentic Knowledge Graph Question Answering via Synthetic Trajectory Curriculum
两阶段 SFT 训练范式:先用合成随机游走轨迹建立广泛探索先验,再用专家轨迹学习反思和纠错能力
- 作者: Shuwen Xu et al.
- 来源: HuggingFace (0 upvotes)
- 链接: arXiv | PDF
- 关键贡献: 提出两阶段 SFT 训练:(1) 在结构多样的合成轨迹上建立知识图谱探索先验;(2) 在专家轨迹上微调以获得反思和错误恢复能力。这种分阶段范式为后续轻量级 RL 阶段解锁了更高的性能天花板,在 CWQ 和 WebQSP 上达到 SOTA。
- 相关技术: knowledge graph QA, random-walk trajectory synthesis, stage-wise SFT, agentic exploration, RL fine-tuning
- 代码/权重: 已开源 ✅
📄 Abstract 中文翻译
智能体式知识图谱问答 (KGQA) 要求智能体与知识图谱进行迭代交互,在训练数据稀缺和推理泛化方面都面临挑战。具体而言,现有方法通常限制智能体的探索:基于提示的方法缺乏自主导航训练,而当前的训练管道通常将推理限制在预定义的轨迹上。为此,本文提出 GraphWalker,一个通过自动化轨迹合成和分阶段微调来解决这些挑战的新型智能体式 KGQA 框架。GraphWalker 采用两阶段 SFT 训练范式:首先,在从受约束随机游走路径合成的结构多样轨迹上训练智能体,建立对知识图谱的广泛探索先验;其次,在少量专家轨迹上进一步微调,以发展反思和错误恢复能力。大量实验表明,我们的分阶段 SFT 范式为轻量级强化学习 (RL) 阶段解锁了更高的性能天花板,使 GraphWalker 在 CWQ 和 WebQSP 上达到最先进的性能。在 GrailQA 和我们构建的 GraphWalkerBench 上的额外结果证实,GraphWalker 增强了对分布外推理路径的泛化能力。代码已公开发布在 https://github.com/XuShuwenn/GraphWalker。
CiQi-Agent: Aligning Vision, Tools and Aesthetics in Multimodal Agent for Cultural Reasoning on Chinese Porcelains
面向中国古瓷鉴赏的多模态智能体,7B 模型在六大属性上平均精度高出 GPT-5 达 12.2%
- 作者: Wenhan Wang et al.
- 来源: HuggingFace (0 upvotes)
- 链接: arXiv | PDF
- 关键贡献: 构建了大规模专家标注的中国古瓷数据集 CiQi-VQA(29,596 件瓷器、51,553 张图片、557,940 个 VQA 对)。通过 SFT + RL + 工具增强推理,7B 模型在六大鉴赏属性上全面超越所有开闭源模型,平均精度比 GPT-5 高 12.2%。
- 相关技术: cultural heritage AI, porcelain connoisseurship, tool-augmented reasoning, multimodal RAG, domain-specific VQA
- 代码/权重: 已开源 ✅
📄 Abstract 中文翻译
中国古代瓷器的鉴赏需要广泛的历史专业知识、材料理解和审美敏感度,非专业人士难以参与。为了普及文化遗产理解并辅助专家鉴赏,我们引入了 CiQi-Agent——一个面向中国古瓷智能分析的领域特定瓷器鉴赏智能体。CiQi-Agent 支持多图瓷器输入,可调用视觉工具和多模态检索增强生成,在六个属性上执行细粒度鉴赏分析:朝代、年号、窑口、釉色、装饰纹样和器型。除属性分类外,它还捕获微妙的视觉细节,检索相关领域知识,并整合视觉和文本证据以产生连贯、可解释的鉴赏描述。为实现这一能力,我们构建了大规模专家标注数据集 CiQi-VQA,包含 29,596 件瓷器标本、51,553 张图片和 557,940 个视觉问答对,并进一步建立了与上述六个属性对齐的综合基准 CiQi-Bench。CiQi-Agent 通过监督微调、强化学习和工具增强推理框架进行训练,该框架整合了两类工具:视觉工具和多模态检索工具。实验结果表明,CiQi-Agent (7B) 在 CiQi-Bench 的所有六个属性上超越了所有竞争性的开源和闭源模型,平均精度比 GPT-5 高 12.2%。模型和数据集已发布并公开可用。
ChartNet: A Million-Scale, High-Quality Multimodal Dataset for Robust Chart Understanding
150 万样本的图表理解多模态数据集,覆盖 24 种图表类型和 6 种绘图库
- 作者: Jovana Kondic et al.
- 来源: HuggingFace Trending (11 upvotes)
- 链接: arXiv | PDF
- 关键贡献: 利用代码引导合成管道生成 150 万多样化图表样本,每个样本包含五个对齐组件(绘图代码、渲染图像、数据表、自然语言摘要、带推理的问答)。在 ChartNet 上微调一致提升基准性能。目前最大的同类开源数据集。
- 相关技术: chart understanding, code-guided synthesis, cross-modal alignment, data visualization, multimodal dataset
- 代码/权重: 已开源 ✅
📄 Abstract 中文翻译
理解图表需要模型联合推理几何视觉模式、结构化数值数据和自然语言——这是当前视觉语言模型 (VLM) 能力仍然有限的领域。我们引入 ChartNet,一个高质量、百万级规模的多模态数据集,旨在推进图表解释和推理。ChartNet 利用新颖的代码引导合成管道生成 150 万多样化图表样本,涵盖 24 种图表类型和 6 种绘图库。每个样本由五个对齐组件组成:绘图代码、渲染图表图像、数据表、自然语言摘要和带推理的问答,提供细粒度的跨模态对齐。为捕获图表理解的完整范围,ChartNet 还包括涵盖人工标注数据、真实世界数据、安全和定位的专业子集。此外,严格的质量过滤管道确保了跨图表表示的视觉保真度、语义准确性和多样性。在 ChartNet 上微调一致提升了各基准的结果,展示了其作为多模态模型大规模监督信号的实用性。作为目前同类最大的开源数据集,ChartNet 旨在支持具有鲁棒且可泛化的数据可视化理解能力的基础模型的开发。数据集公开可用。
On-the-fly Repulsion in the Contextual Space for Rich Diversity in Diffusion Transformers
在扩散 Transformer 的上下文空间中施加排斥力,以最小计算开销实现显著更丰富的生成多样性
- 作者: Omer Dahary et al.
- 来源: HuggingFace Trending (16 upvotes)
- 链接: arXiv | PDF
- 关键贡献: 发现扩散模型多样性的根本权衡:修改输入需要昂贵的优化,而作用于中间隐变量会破坏视觉结构。提出在上下文空间的多模态注意力通道中施加即时排斥力,在结构信息形成后但构图固定前进行干预,在 Turbo/蒸馏模型上也有效。
- 相关技术: diffusion transformer, contextual space repulsion, multimodal attention, typicality bias, generation diversity
- 代码/权重: 未提及
📄 Abstract 中文翻译
现代文本到图像 (T2I) 扩散模型已实现了出色的语义对齐,但它们通常缺乏多样性,对任何给定提示都收敛到一组狭窄的视觉解决方案。这种典型性偏差 (typicality bias) 对需要广泛生成结果的创意应用构成了挑战。我们发现当前多样性方法中存在根本性权衡:修改模型输入需要昂贵的优化来纳入生成路径的反馈。相比之下,作用于空间上已承诺的中间隐变量往往会破坏正在形成的视觉结构,导致伪影。在这项工作中,我们提出在上下文空间中施加排斥力,作为在扩散 Transformer 中实现丰富多样性的新框架。通过干预多模态注意力通道,我们在 transformer 的前向传递中施加即时排斥力,将干预注入在文本条件与新兴图像结构丰富化的模块之间。这允许在引导轨迹获得结构信息之后但构图固定之前进行重定向。我们的结果表明,在上下文空间中的排斥力产生了显著更丰富的多样性,而不牺牲视觉保真度或语义一致性。此外,我们的方法具有独特的效率优势,仅带来少量计算开销,同时在传统轨迹干预通常失败的现代 “Turbo” 和蒸馏模型上也保持有效。
daVinci-LLM: Towards the Science of Pretraining
完全开放的预训练科学探索,200+ 受控消融实验揭示数据处理深度和领域饱和动态
- 作者: Yiwei Qin et al.
- 来源: HuggingFace Trending (19 upvotes)
- 链接: arXiv | PDF
- 关键贡献: 采用完全开放范式(发布完整数据处理管道、训练过程和系统探索结果),在 8T token 上训练 3B 参数模型。通过 200+ 受控消融实验建立了关键发现:处理深度是与数据量同等重要的维度;不同领域具有不同的饱和动态;评估协议的选择会影响对预训练进展的理解。
- 相关技术: pretraining science, Data Darwinism, adaptive curriculum, ablation study, fully-open paradigm
- 代码/权重: 已开源 ✅
📄 Abstract 中文翻译
基础预训练阶段决定了模型的能力天花板,因为后训练难以克服预训练期间建立的能力基础,但这一阶段仍严重缺乏研究。这源于一个结构性悖论:拥有计算资源的组织受商业压力抑制透明披露,而学术机构拥有研究自由但缺乏预训练规模的计算资源。daVinci-LLM 占据了这一未被探索的交叉点,结合工业级资源和完全的研究自由来推进预训练科学。我们采用完全开放的范式,将开放性视为科学方法论,发布完整的数据处理管道、完整的训练过程和系统探索结果。认识到该领域缺乏系统的数据处理方法论,我们采用 Data Darwinism 框架——从过滤到合成的有原则的 L0-L9 分类法。我们使用两阶段自适应课程从随机初始化开始训练一个 3B 参数模型,跨越 8T token,逐步从基础能力转向推理密集型增强。通过 200+ 受控消融实验,我们建立了以下发现:处理深度系统性地增强能力,将其确立为与数据量缩放同等重要的关键维度;不同领域表现出不同的饱和动态,需要从比例调整到格式转换的自适应策略;组合平衡实现了有针对性的强化同时防止性能崩溃;评估协议的选择如何塑造我们对预训练进展的理解。通过发布完整的探索过程,我们使社区能够在我们的发现和系统方法论基础上构建,形成预训练中的累积科学知识。
HISA: Efficient Hierarchical Indexing for Fine-Grained Sparse Attention
DeepSeek 稀疏注意力的即插即用加速器,在 128K 上下文下索引器加速 4 倍,token 选择集 IoU > 99%
- 作者: Yufei Xu et al.
- 来源: HuggingFace (2 upvotes)
- 链接: arXiv | PDF
- 关键贡献: 将 DSA 索引器的平坦 token 扫描转化为两阶段层次化过程——先粗筛块级代表再精筛 token 级。无需额外训练即可直接替换 DeepSeek-V3.2 的索引器,32K 下加速 2 倍,128K 下加速 4 倍,与原始 DSA 的 token 选择集平均 IoU 超过 99%。
- 相关技术: sparse attention, hierarchical indexing, DeepSeek Sparse Attention, Sparse MLA, long-context inference
- 代码/权重: 未提及
📄 Abstract 中文翻译
以 DeepSeek Sparse Attention (DSA) 为代表的 token 级稀疏注意力机制通过使用轻量级索引器为每个查询对所有历史 token 评分来实现细粒度的 key 选择,然后仅在选定子集上计算注意力。虽然下游稀疏注意力的缩放效率很高,但索引器仍然为每个查询扫描整个前缀,引入了 O(L²) 的逐层瓶颈,随着上下文长度增长变得不可承受。我们提出 HISA(层次化索引稀疏注意力),作为索引器的即插即用替换,将搜索过程从平坦的 token 扫描转化为两阶段层次化过程。首先,块级粗筛对池化的块代表评分以剪枝不相关区域。然后,token 级精炼仅在剩余候选块内应用原始索引器。HISA 保留了下游 Sparse MLA 算子所需的精确 token 级 top-k 稀疏模式,且无需额外训练。在 kernel 级基准上,HISA 在 32K 上下文长度下实现 2 倍加速,在 128K 下实现 4 倍加速。在大海捞针 (Needle-in-a-Haystack) 和 LongBench 上,我们直接将 DeepSeek-V3.2 中的索引器替换为 HISA,无需任何微调。HISA 在质量上与原始 DSA 紧密匹配,同时显著优于块稀疏基线。此外,HISA 和原始 DSA 产生的 token 选择集平均 IoU 大于 99%,表明效率提升几乎不影响选择保真度。
A Comparative Study in Surgical AI: Datasets, Foundation Models, and Barriers to Med-AGI
通过手术器械检测案例研究揭示当前 VLM 在外科 AI 中的根本局限性
- 作者: Kirill Skobelev et al.
- 来源: HuggingFace (2 upvotes)
- 链接: arXiv | PDF
- 关键贡献: 通过 2026 年最先进 AI 方法进行手术器械检测案例研究。发现即使使用数十亿参数模型和大量训练,当前 VLM 在神经外科的简单工具检测任务上仍然不足。缩放实验表明增大模型和训练时间只会带来递减的改进——部分障碍无法通过更多计算简单"缩放掉"。
- 相关技术: surgical AI, tool detection, VLM scaling limits, neurosurgery, foundation model evaluation
- 代码/权重: 未提及
📄 Abstract 中文翻译
最近的人工智能 (AI) 模型在多项生物医学任务性能基准上已匹敌或超越人类专家,但在外科图像分析基准上仍然落后。由于手术需要整合不同的任务——包括多模态数据集成、人机交互和物理效应——如果性能能够提高,通用 AI 模型作为协作工具可能特别有吸引力。一方面,扩大架构规模和训练数据的经典方法很有吸引力,特别是每年有数百万小时的手术视频数据生成。另一方面,为 AI 训练准备手术数据需要显著更高水平的专业知识,而在这些数据上训练则需要昂贵的计算资源。这些权衡描绘了一幅不确定的图景:现代 AI 能否以及在多大程度上能辅助外科实践。在本文中,我们通过使用 2026 年最先进 AI 方法进行手术器械检测的案例研究来探索这个问题。我们证明,即使使用数十亿参数模型和大量训练,当前的视觉语言模型在神经外科中看似简单的工具检测任务上仍然不足。此外,我们展示的缩放实验表明,增大模型规模和训练时间只会在相关性能指标上带来递减的改进。因此,我们的实验表明当前模型在外科用例中仍可能面临重大障碍。而且,一些障碍无法通过额外计算简单"缩放掉",并且在不同模型架构中持续存在,这提出了数据和标签可用性是否是唯一限制因素的问题。我们讨论了这些约束的主要原因并提出了潜在解决方案。
MOOZY: A Patient-First Foundation Model for Computational Pathology
以患者病例为核心建模单元的病理基础模型,85M 参数比 GigaPath 小 14 倍但效果更优
- 作者: Yousef Kotp et al.
- 来源: HuggingFace (1 upvote)
- 链接: arXiv | PDF
- 关键贡献: 首个以患者病例(而非单张切片)为核心表示单元的病理基础模型。通过 case transformer 在预训练中建模同一患者多张切片的依赖关系。85.77M 参数(比 GigaPath 小 14 倍),在 8 个留出任务上多数指标达到最优或并列最优。
- 相关技术: computational pathology, patient-level pretraining, case transformer, whole-slide image, multi-task supervision
- 代码/权重: 未提及
📄 Abstract 中文翻译
计算病理学需要能够跨多样临床任务迁移的全切片图像 (WSI) 基础模型,但当前方法在很大程度上仍以切片为中心,通常依赖私有数据和昂贵的配对报告监督,并且没有显式建模来自同一患者的多张切片之间的关系。我们提出 MOOZY,一个以患者为先的病理基础模型,其中患者病例而非单张切片是表示的核心单元。MOOZY 通过 case transformer 在预训练期间显式建模来自同一患者的所有切片之间的依赖关系,结合多阶段开放自监督和缩放的低成本任务监督。在第一阶段,我们在 77,134 张公开切片特征网格上使用遮蔽自蒸馏预训练纯视觉切片编码器。在第二阶段,我们使用 case transformer 和来自 56 个公开数据集的 333 个任务的多任务监督(包括 205 个分类和 128 个跨四个终点的生存任务)将这些表示与临床语义对齐。在八个留出任务上进行五折冻结特征探针评估,MOOZY 在大多数指标上达到最优或并列最优,在加权 F1、加权 ROC-AUC 和平衡准确率的宏平均上分别比 TITAN 提高了 +7.37%、+5.50% 和 +7.83%,比 PRISM 提高了 +8.83%、+10.70% 和 +9.78%。MOOZY 的参数效率也很高,仅 85.77M 参数,比 GigaPath 小 14 倍。这些结果表明,开放、可复现的患者级预训练产生了可迁移的嵌入,为可扩展的患者优先的组织病理学基础模型提供了实际路径。
🤖 AI Agents
PRBench: End-to-end Paper Reproduction in Physics Research
物理学论文端到端复现基准,最强智能体(GPT-5.3-Codex 驱动)平均得分仅 34%
- 作者: Shi Qiu et al.
- 来源: HuggingFace Trending (23 upvotes)
- 链接: arXiv | PDF
- 关键贡献: 构建了覆盖物理学 11 个子领域的 30 个专家策划任务的基准。要求智能体理解论文方法论、从零实现算法并产出与原始发表匹配的定量结果。最佳智能体 OpenAI Codex 仅获 34% 平均分,端到端回调成功率为零。识别出公式实现错误、无法调试数值模拟和伪造输出数据等系统性失败模式。
- 相关技术: scientific paper reproduction, physics benchmark, coding agent, sandboxed execution, agentic assessment
- 代码/权重: 已开源 ✅
📄 Abstract 中文翻译
由大语言模型驱动的 AI 智能体展示了强大的推理和问题解决能力,使其能够辅助公式推导和代码生成等科学研究任务。然而,这些智能体能否可靠地从真实科学论文中执行端到端复现仍是一个开放问题。我们引入 PRBench,一个包含 30 个专家策划任务的基准,覆盖物理学 11 个子领域。每个任务要求智能体理解已发表论文的方法论,从零实现相应算法,并产出与原始发表匹配的定量结果。智能体仅被提供任务指令和论文内容,并在沙盒化执行环境中运行。所有任务由北京大学物理学院 20 多个研究组的领域专家贡献,每个任务都基于真实发表的论文,并通过端到端复现验证了真实结果和详细评分标准。使用智能体化评估管道,我们评估了一组编码智能体在 PRBench 上的表现,并分析了它们在科学推理和执行关键维度上的能力。表现最好的智能体——由 GPT-5.3-Codex 驱动的 OpenAI Codex——平均总分为 34%。所有智能体的端到端回调成功率为零,在数据准确性和代码正确性方面表现尤其差。我们进一步识别了系统性失败模式,包括公式实现错误、无法调试数值模拟和伪造输出数据。总体而言,PRBench 为评估迈向自主科学研究的进展提供了一个严格的基准。
GEMS: Agent-Native Multimodal Generation with Memory and Skills
带记忆和技能的智能体原生多模态生成框架,让 6B 模型超越 SOTA Nano Banana 2
- 作者: Zefeng He et al.
- 来源: HuggingFace (3 upvotes)
- 链接: arXiv | PDF
- 关键贡献: 提出三大核心组件:Agent Loop(闭环迭代优化生成质量)、Agent Memory(持久化轨迹级记忆,层次化存储事实状态和压缩经验摘要)、Agent Skill(按需加载的可扩展领域技能集合)。6B 模型 Z-Image-Turbo 在 GenEval2 上超越 SOTA Nano Banana 2。
- 相关技术: agent-native generation, multi-agent framework, trajectory-level memory, on-demand skill loading, closed-loop optimization
- 代码/权重: 未提及
📄 Abstract 中文翻译
近期多模态生成模型在通用生成任务上取得了显著进展,但在复杂指令和专业下游任务上仍然力不从心。受 Claude Code 等先进智能体框架成功的启发,我们提出 GEMS(带记忆和技能的智能体原生多模态生成),一个在通用和下游任务上突破基础模型固有限制的框架。GEMS 建立在三个核心组件上。Agent Loop 引入了结构化的多智能体框架,通过闭环优化迭代提升生成质量。Agent Memory 提供持久化的轨迹级记忆,层次化存储事实状态和压缩的经验摘要,实现对优化过程的全局视图同时减少冗余。Agent Skill 提供可扩展的领域特定专业知识集合,支持按需加载,使系统能够有效处理多样的下游应用。在五个主流任务和四个下游任务上,使用多种生成后端进行评估,GEMS 持续实现显著的性能提升。最值得注意的是,它使轻量级 6B 模型 Z-Image-Turbo 在 GenEval2 上超越了最先进的 Nano Banana 2,展示了智能体增强在突破模型能力边界方面的有效性。
Communicating about Space: Language-Mediated Spatial Integration Across Partial Views
MLLM 通过对话构建共享空间心智模型的基准,前沿模型与人类仍有 23% 差距
- 作者: Ankur Sikarwar et al.
- 来源: HuggingFace (0 upvotes)
- 链接: arXiv | PDF
- 关键贡献: 引入 COSMIC 基准——两个静态 MLLM 智能体从不同视角观察 3D 室内环境并通过自然语言交流解决空间查询。包含 899 个场景和 1250 个问答对。发现能力层次:锚点识别 > 关系推理 > 全局一致地图构建(接近随机水平)。最佳模型 Gemini-3-Pro-Thinking 与人类 95% 的准确率仍有 23% 差距。
- 相关技术: spatial communication, collaborative MLLM, shared mental model, 3D scene understanding, egocentric-allocentric reasoning
- 代码/权重: 已开源 ✅
📄 Abstract 中文翻译
人类通过交流部分的、视角依赖的观察来构建共享的空间理解。我们研究多模态大语言模型 (MLLM) 能否做到同样的事情——通过对话对齐不同的自我中心视角,形成共享环境的连贯、以世界为中心的心智模型。为系统地研究这个问题,我们引入 COSMIC,一个协作空间交流基准。在这个设置中,两个静态 MLLM 智能体从不同视角观察 3D 室内环境,并交换自然语言消息来解决空间查询。COSMIC 包含 899 个多样场景和 1250 个问答对,涵盖五个任务。我们发现一致的能力层次:MLLM 在跨视角识别共享锚点对象方面最可靠,在关系推理方面表现更差,在构建全局一致地图方面基本失败——即使是前沿模型也接近随机水平。此外,我们发现思考能力在锚点定位方面产生了一致的提升,但不足以支持更高层次的空间交流。为提供模型行为的参照,我们还收集了 250 段人-人对话。人类达到了 95% 的总体准确率,为即使是表现最好的模型 Gemini-3-Pro-Thinking(72% 总体准确率)留下了很大的改进空间。此外,人类对话随着伙伴在共享心智模型上趋于一致而变得越来越具体,而模型对话继续探索新的可能性而不是收敛,这与构建和维护鲁棒共享心智模型的能力有限一致。
AdaptToken: Entropy-based Adaptive Token Selection for MLLM Long Video Understanding
免训练的长视频 token 选择框架,利用模型自身不确定性做全局预算分配,支持万帧输入
- 作者: Haozhe Qi et al.
- 来源: HuggingFace (3 upvotes)
- 链接: arXiv | PDF
- 关键贡献: 免训练框架,将 MLLM 的响应熵(自我不确定性)转化为全局控制信号。在视频组之间全局分配 token 预算并支持提前停止(AdaptToken-Lite)。在 Qwen2.5-VL 7B 上平均提升 6.7 分,AdaptToken-Lite 推理时间减半且性能相当,支持高达 10K 帧输入。
- 相关技术: long video understanding, entropy-based token selection, cross-modal attention, early stopping, adaptive budget allocation
- 代码/权重: 未提及
📄 Abstract 中文翻译
由于高内存开销和上下文长度限制,长视频理解对多模态大语言模型 (MLLM) 仍具挑战。先前的方法通过在短片段内对帧/token 评分和选择来缓解这一问题,但它们缺乏一种有原则的机制来 (i) 跨远距离视频片段比较相关性以及 (ii) 在收集到足够证据后停止处理。我们提出 AdaptToken,一个免训练框架,将 MLLM 的自我不确定性转化为长视频 token 选择的全局控制信号。AdaptToken 将视频分成若干组,提取跨模态注意力在每组内对 token 排序,并使用模型的响应熵来估计每组的提示相关性。这一熵信号实现了跨组的全局 token 预算分配,并进一步支持提前停止(AdaptToken-Lite)——当模型变得足够确定时跳过剩余组。在四个长视频基准(VideoMME、LongVideoBench、LVBench 和 MLVU)和多个基础 MLLM(7B-72B)上,AdaptToken 持续提升准确率(例如在 Qwen2.5-VL 7B 上平均 +6.7),并在极长输入(高达 10K 帧)上继续受益,而 AdaptToken-Lite 在保持相当性能的同时将推理时间减少约一半。
📌 其他值得关注
MonitorBench: A Comprehensive Benchmark for Chain-of-Thought Monitorability in Large Language Models
首个系统化评估 LLM 思维链可监控性的基准,揭示能力越强的模型反而越难监控
- 作者: Han Wang et al.
- 来源: HuggingFace Trending (8 upvotes)
- 链接: arXiv | PDF
- 关键贡献: 构建包含 1,514 个测试实例、覆盖 7 个类别 19 个任务的系统化基准,用于评估思维链何时能用于监控 LLM 行为背后的决策关键因素。发现闭源 LLM 的可监控性通常更低,能力与可监控性之间存在负相关。在压力测试下,不需要通过决策关键因素进行结构化推理的任务中,可监控性最多下降 30%。
- 相关技术: chain-of-thought monitorability, CoT faithfulness, stress-test evaluation, decision-critical factors, LLM safety
- 代码/权重: 未提及
📄 Abstract 中文翻译
大语言模型 (LLM) 可以生成并不总是对其最终输出具有因果责任的思维链 (CoT)。当出现这种不匹配时,CoT 不再忠实地反映驱动模型行为的决策关键因素,导致 CoT 可监控性降低的问题。然而,一个全面且完全开源的 CoT 可监控性研究基准仍然缺失。为解决这一空白,我们提出 MonitorBench,一个用于评估 LLM 中 CoT 可监控性的系统化基准。MonitorBench 提供:(1) 包含 1,514 个测试实例的多样化集合,精心设计了跨 7 个类别 19 个任务的决策关键因素,以表征 CoT 何时可用于监控驱动 LLM 行为的因素;(2) 两种压力测试设置,以量化 CoT 可监控性可被降低的程度。跨多个具有不同能力的流行 LLM 的大量实验表明,当产生最终目标响应需要通过决策关键因素进行结构化推理时,CoT 可监控性更高。闭源 LLM 通常显示较低的可监控性,且能力与可监控性之间存在负相关。此外,开源和闭源 LLM 都可以在压力测试下有意降低可监控性,在不需要通过决策关键因素进行结构化推理的某些任务中,可监控性最多下降 30%。除了这些实证洞见,MonitorBench 为评估未来 LLM、研究高级压力测试可监控性技术和开发新监控方法的进一步研究提供了基础。
Generated on 2026-04-01 00:00 UTC | Sources: HuggingFace