AI Paper Daily | 2026-04-26

今日概览

📌 今日新论文较少，arXiv API 请求全部超时，HuggingFace 热门论文多数已在近日日报中收录。以下为去重后的新增论文。

🧠 LLM Training

Visual Reasoning through Tool-supervised Reinforcement Learning

用工具监督的强化学习课程，让多模态模型先学会用工具再做视觉推理

作者: Qihua Dong et al.
来源: HuggingFace (3 upvotes)
链接: arXiv | PDF
关键贡献: 提出 ToolsRL 框架，将工具使用与视觉推理解耦为两阶段课程训练——第一阶段用工具特定奖励纯学工具调用，第二阶段在允许调用工具的同时用准确率奖励训练推理。这种方式避免了工具学习与推理任务之间的优化冲突，在复杂视觉推理任务上取得了强工具使用能力。
相关技术: tool-supervised RL, visual reasoning curriculum, zoom-in/rotate tools, multimodal tool use
代码/权重: 未提及

📄 Abstract 中文翻译

本文研究如何让多模态大语言模型有效掌握工具使用以解决复杂视觉推理任务。为此，我们提出了一个新的工具监督强化学习（Tool-supervised Reinforcement Learning, ToolsRL）框架，通过直接的工具监督实现更有效的工具使用学习。我们关注一系列简单、原生且可解释的视觉工具，包括放大、旋转、翻转和画点/线，这些工具的监督信号易于收集。我们开发了一个强化学习课程：第一阶段仅由一组精心设计的工具特定奖励进行优化，第二阶段在允许调用工具的同时用准确率目标奖励进行训练。这样，工具调用能力在用于完成视觉推理任务之前就已掌握，避免了异构任务间潜在的优化冲突。实验表明，工具监督课程训练是高效的，ToolsRL 能在复杂视觉推理任务上实现强大的工具使用能力。

Expert Upcycling: Shifting the Compute-Efficient Frontier of Mixture-of-Experts

MoE 不用从头训练——通过专家复制+继续预训练扩展容量，省 32% GPU 时间

作者: Chaitanya Dwivedi et al.
来源: HuggingFace (15 upvotes)
链接: arXiv | PDF
关键贡献: 提出 Expert Upcycling 方法，在继续预训练中通过专家复制和路由扩展来渐进扩大 MoE 容量，保持 top-K 路由不变从而不增加推理成本。还引入基于梯度的效用评分引导非均匀复制，在有限 CPT 预算下将差距缩小了三倍以上。7B-13B 实验中，upcycled 模型在验证损失上匹配固定尺寸基线，同时节省 32% GPU 小时。
相关技术: MoE expert duplication, gradient-based expert selection, continued pre-training, sparse routing
代码/权重: 未提及

📄 Abstract 中文翻译

混合专家模型（Mixture-of-Experts, MoE）已成为扩展大语言模型的主流架构：前沿模型常规性地通过稀疏专家路由将总参数量与每 token 计算量解耦。缩放定律表明，在固定的激活计算量下，模型质量与总参数量可预测地缩放，而 MoE 通过增加专家数量来实现这一点。然而，训练大型 MoE 代价高昂，因为内存需求和设备间通信都随总参数量缩放。我们提出 Expert Upcycling，一种在继续预训练（CPT）期间通过增加专家数量来渐进扩展 MoE 容量的方法。给定一个训练好的 E 专家模型，upcycling 算子通过专家复制和路由扩展构建 mE 专家模型，同时保持 top-K 路由不变，保持每 token 推理成本不变。复制提供了热启动：扩展模型继承了源检查点的已学习表示，从比随机初始化低得多的损失开始。随后的 CPT 打破复制专家间的对称性以驱动专业化。我们形式化了 upcycling 算子并开发了一个将质量差距分解为容量项和初始化项的理论框架。我们进一步引入基于效用的专家选择，使用基于梯度的重要性分数来引导非均匀复制，在 CPT 有限时将差距缩小了三倍以上。在 7B-13B 总参数实验中，upcycled 模型在验证损失上匹配固定尺寸基线，同时节省 32% 的 GPU 小时。跨模型规模、激活比、MoE 架构和训练预算的全面消融实验为部署 Expert Upcycling 提供了实用方案，确立了其作为从头训练大型 MoE 模型的有原则的、计算高效的替代方案。

🤖 AI Agents

Cross-Session Threats in AI Agents: Benchmark, Evaluation, and Algorithms

AI Agent 的安全围栏是「无记忆」的——跨会话攻击可以轻松绕过每个会话的检测

作者: Ari Azarafrooz
来源: HuggingFace (1 upvote)
链接: arXiv | PDF
关键贡献: 揭示了 AI Agent 围栏的跨会话盲点——攻击者可将单一攻击分散到数十个会话中，因为只有聚合后才会触发载荷。贡献了 CSTM-Bench（26 种可执行攻击分类）和 CSTM 指标（融合检测 F1 与 KV-cache 前缀稳定性），提出有界内存的 Coreset Memory Reader，是唯一在两个测试分片上都维持召回率的读取器。
相关技术: cross-session attack, coreset memory, KV-cache prefix reuse, kill-chain taxonomy, information bottleneck
代码/权重: 已开源 ✅ (intrinsec-ai/cstm-bench on HuggingFace)

📄 Abstract 中文翻译

AI Agent 的安全围栏是无记忆的：每条消息被孤立判断，因此将单一攻击分散到数十个会话中的对手可以绕过每个会话级检测器，因为只有聚合才携带载荷。我们对跨会话威胁检测做出三项贡献。

(1) 数据集。CSTM-Bench 包含 26 种可执行攻击分类，按杀伤链阶段和跨会话操作（accumulate、compose、launder、inject_on_reader）分类，每种绑定到七个身份锚点之一，以将「违规」作为策略谓词的真值基础，加上匹配的 Benign-pristine 和 Benign-hard 干扰项。在 Hugging Face 上以 intrinsec-ai/cstm-bench 发布，包含两个 54 场景分割：dilution（组合式）和 cross_session（由闭环重写器生成的 12 个隔离不可见场景，该重写器软化表面措辞同时保留跨会话特征）。

(2) 测量。将跨会话检测框架为下游关联 LLM 的信息瓶颈，我们发现会话级判断器和将每个提示连接为一次长上下文调用的 Full-Log Correlator 在从 dilution 迁移到 cross_session 时都损失了大约一半的攻击召回率，完全在任何前沿上下文窗口之内。范围：每个分片 54 个场景，一个关联器家族（Anthropic Claude），无提示优化；我们发布它以推动更大规模、多供应商数据集。

(3) 算法和指标。保留最高信号片段的有界内存 Coreset Memory Reader（K=50）是唯一在两个分片上都维持召回率的读取器。因为排序器重排会破坏 KV-cache 前缀复用，我们将 CSR_prefix（有序前缀稳定性，无需 LLM）提升为一等指标，并将其与检测融合为 CSTM = 0.7 F₁(CSDA@action, precision) + 0.3 CSR_prefix，在召回率与服务稳定性的单一 Pareto 上对排序器进行基准测试。

📌 其他值得关注

Decoding Text Spans for Efficient and Accurate Named-Entity Recognition

用轻量解码器在 Transformer 最后阶段算 span 交互，NER 吞吐量大幅提升

作者: Andrea Maracani et al.
来源: HuggingFace (2 upvotes)
链接: arXiv | PDF
关键贡献: 提出 SpanDec，一个高效的 span-based NER 框架。核心洞察是 span 表示交互可以在 Transformer 最后阶段有效计算，通过一个专用的轻量解码器避免早期层的冗余计算。同时在枚举阶段引入 span 过滤机制修剪不可能的候选。在多个基准上匹配竞争基线的同时提高了吞吐量、降低了计算成本。
相关技术: span-based NER, lightweight span decoder, span filtering, inference throughput
代码/权重: 未提及

📄 Abstract 中文翻译

命名实体识别（NER）是工业信息抽取管道的关键组件，系统必须满足严格的延迟和吞吐量约束以及高准确率。最先进的 NER 准确率通常由基于 span 的框架实现，该框架从 token 编码构建 span 表示并对候选 span 进行分类。然而，许多基于 span 的方法枚举大量候选并通过标记增强输入处理每个候选，大幅增加推理成本并限制大规模部署的可扩展性。本文提出 SpanDec，一个高效的基于 span 的 NER 框架，针对这一瓶颈。我们的主要洞察是 span 表示交互可以在 Transformer 最后阶段有效计算，通过专用于 span 表示的轻量级解码器避免早期层中的冗余计算。我们进一步在枚举期间引入 span 过滤机制，在昂贵处理之前修剪不可能的候选。在多个基准上，SpanDec 匹配有竞争力的基于 span 的基线，同时提高吞吐量并降低计算成本，在大规模服务和设备端应用中实现了更好的准确率-效率权衡。

Generated on 2026-04-26T00:00:00Z | Sources: HuggingFace (arXiv API timed out)