AI Paper Daily | 2026-03-17

今日概览

共收录 18 篇论文 | Audio LLM: 8 篇 | LLM Training: 6 篇 | AI Agents: 4 篇 来源：arXiv(16) | HuggingFace(2)

重点推荐

NV-Bench: Benchmark of Nonverbal Vocalization Synthesis for Expressive Text-to-Speech Generation

首个基于功能分类学的非语言语音合成基准，为 TTS 情感表达提供标准化评估框架

作者: Qinke Ni et al. | 未注明机构
来源: arXiv
链接: arXiv | PDF
关键贡献: 提出 NV-Bench 基准，包含 1,651 条多语言非语言语音 utterances，覆盖 14 种 NV 类别；引入指令对齐 (PCER 指标) 和声学保真度双维度评估协议
相关技术: TTS, Nonverbal Vocalization, Benchmark, Evaluation
代码/权重: 未提及

简述: 针对当前 TTS 系统缺乏非语言语音 (笑声、叹息等) 标准化评估的问题，NV-Bench 首次将非语言语音视为交际行为而非声学伪影，建立了与人类感知强相关的客观评估指标。

📄 完整摘要（中文翻译）

尽管近期的文本转语音 (TTS) 系统越来越多地集成非语言语音 (NVs)，但它们的评估缺乏标准化指标和可靠的真值参考。为弥合这一差距，我们提出 NV-Bench，这是首个基于功能分类学的基准，将 NVs 视为交际行为而非声学伪影。NV-Bench 包含 1,651 条多语言、自然场景下的 utterances，配对人体参考音频，平衡覆盖 14 种 NV 类别。我们引入双维度评估协议：(1) 指令对齐，利用提出的副语言字符错误率 (PCER) 评估可控性；(2) 声学保真度，测量与真实录音的分布差距以评估声学真实感。我们评估了多种 TTS 模型并开发了两个基线。实验结果表明，我们的客观指标与人类感知之间存在强相关性，确立了 NV-Bench 作为标准化评估框架的地位。

LLMs and Speech: Integration vs. Combination

系统比较语音 LLM 紧耦合与浅层融合两种范式，为 ASR 系统设计提供实证指导

作者: Robin Schmitt et al. | 未注明机构
来源: arXiv
链接: arXiv | PDF
关键贡献: 对声学模型与 LLM 的紧耦合 (speech LLM) 和传统浅层融合进行了全面消融研究，涵盖标签单元、微调策略、LLM 规模、注意力接口等维度；提出联合 CTC 识别以缓解幻觉
相关技术: Speech LLM, ASR, Shallow Fusion, Fine-tuning
代码/权重: 未提及

简述: 研究如何最佳利用预训练 LLM 进行自动语音识别，发现紧耦合与浅层融合各有优劣，紧耦合在特定条件下表现更好但需要更多调优。

📄 完整摘要（中文翻译）

在这项工作中，我们研究如何最佳利用预训练 LLM 进行自动语音识别。具体而言，我们比较了声学模型 (AM) 与 LLM 的紧耦合 (“speech LLM”) 与通过浅层融合组合 AM 和 LLM 的传统方式。对于紧耦合，我们对不同标签单元、微调策略、LLM 规模和预训练数据、注意力接口、编码器下采样、文本提示和长度归一化的影响进行了消融实验。此外，我们研究了与 CTC 模型的联合识别以缓解语音 LLM 的幻觉，并提出了有效的优化方案。对于浅层融合，我们研究了使用不同标签单元在转写文本上微调 LLM 的影响，并比较了对 AM 假设的重评分与标签级或延迟融合的 AM 和 LLM 分数的单遍识别。我们在 Librispeech 和 Loquacious 上训练模型，并在 HuggingFace ASR 排行榜上评估。

VoXtream2: Full-stream TTS with dynamic speaking rate control

零样本全流式 TTS 模型，支持实时动态语速控制，首包延迟仅 74ms

作者: Nikita Torgashov et al. | 未注明机构
来源: HuggingFace Trending
链接: arXiv | PDF
关键贡献: 提出 VoXtream2，结合持续时间状态分布匹配机制和无分类器引导，支持文本到达时动态更新语速；prompt-text masking 实现无文本音频提示
相关技术: Full-stream TTS, Zero-shot, Speaking Rate Control, Low-latency
代码/权重: 未提及

简述: 面向交互式系统的全流式 TTS 需要在最小延迟下开始说话，同时保持对增量到达文本的可控性。VoXtream2 在消费级 GPU 上实现 4 倍实时速度，首包延迟仅 74ms。

📄 完整摘要（中文翻译）

用于交互式系统的全流式文本转语音 (TTS) 必须以最小延迟开始说话，同时在文本增量到达时保持可控性。我们提出 VoXtream2，这是一种具有动态语速控制的零样本全流式 TTS 模型，可以在说话过程中实时更新语速。VoXtream2 结合了持续时间状态上的分布匹配机制和跨条件信号的无分类器引导，以提高可控性和合成质量。Prompt-text 掩码实现了无文本音频提示，消除了对提示转写的需求。在标准零样本基准和专用语速测试集上，VoXtream2 尽管模型更小、训练数据更少，仍实现了与公开基线相比具有竞争力的客观和主观结果。在全流式模式下，它在消费级 GPU 上以 4 倍实时速度运行，首包延迟为 74ms。

🔊 Audio LLM

Tagarela - A Portuguese speech dataset from podcasts

8,972 小时葡萄牙语播客数据集，填补葡语 ASR/TTS 资源空白

作者: Frederico Santos de Oliveira et al. | 未注明机构
来源: arXiv
链接: arXiv | PDF

简述: 针对葡萄牙语缺乏大规模高质量公开数据集的问题，Tagarela 提供了近 9000 小时的播客音频，规模可与英语 GigaSpeech 媲美，已开源。

📄 完整摘要（中文翻译）

尽管语音处理取得了显著进展，但由于缺乏公开、大规模和高质量的数据集，葡萄牙语仍然资源不足。为弥合这一差距，我们提出了一个新数据集 TAGARELA，由超过 8,972 小时的播客音频组成，专门用于训练自动语音识别 (ASR) 和文本转语音 (TTS) 模型。值得注意的是，其规模可与英语的 GigaSpeech (10kh) 媲美，能够支持最先进的葡萄牙语模型。为确保数据质量，语料库经过了音频预处理流程，随后使用混合策略进行转写：我们应用了之前在专有 API 生成的高保真转写上训练的 ASR 模型，确保了高水平的初始准确性。最后，为验证这一新资源的有效性，我们展示了仅在我们的数据集上训练的 ASR 和 TTS 模型，并评估了它们的性能，证明了其推动更稳健和自然语音技术发展的潜力。该数据集已公开发布，网址为 https://freds0.github.io/TAGARELA/，以促进稳健语音技术的发展。

Two-Stage Adaptation for Non-Normative Speech Recognition: Revisiting Speaker-Independent Initialization for Personalization

两阶段自适应框架提升非规范语音 (构音障碍/失语症) 识别的个性化效果

作者: Shan Jiang et al. | 未注明机构
来源: arXiv
链接: arXiv | PDF

简述: 针对构音障碍和失语症等非规范语音的 ASR 个性化，提出先进行说话人无关微调 (SI-FT) 再进行说话人特定微调 (SS-FT) 的两阶段方法，在 AphasiaBank 和 UA-Speech 上验证有效。

📄 完整摘要（中文翻译）

为构音障碍和失语症语音等非规范语音个性化自动语音识别 (ASR) 系统具有挑战性。虽然说话人特定微调 (SS-FT) 被广泛使用，但它通常直接从通用预训练模型初始化。在这种不匹配下，说话人无关自适应是否能提供更强的初始化先验尚不清楚。在这项工作中，我们提出一个两阶段自适应框架，包括在多说话人非规范数据上进行说话人无关微调 (SI-FT)，然后进行 SS-FT，并在相同每说话人条件下与直接 SS-FT 进行对照比较。在 AphasiaBank 和 UA-Speech 上使用 Whisper-Large-v3 和 Qwen3-ASR 的实验，以及在典型语音数据集 TED-LIUM v3 和 FLEURS 上的评估表明，两阶段自适应一致地改善了个性化，同时保持了可管理的域外 (OOD) 权衡。

PhonemeDF: A Synthetic Speech Dataset for Audio Deepfake Detection and Naturalness Evaluation

音素级深伪检测数据集，为 AI 生成语音的自然度评估提供新资源

作者: Vamshi Nallaguntla et al. | 未注明机构
来源: arXiv
链接: arXiv | PDF

简述: 针对 AI 生成语音日益逼真带来的深伪检测挑战，PhonemeDF 提供了音素级对齐的真实和合成语音平行数据，使用 KLD 量化音素分布差异以评估自然度。

📄 完整摘要（中文翻译）

人工智能生成语音的日益复杂化为音频深伪检测带来了新挑战。文本转语音 (TTS) 和语音转换 (VC) 技术可以创建具有自然度和可懂度的高度令人信服的合成语音。这对语音生物识别安全和旨在打击口头虚假信息传播的系统构成了严重威胁，合成语音可能被用于传播虚假或恶意内容。虽然人们对 AI 生成语音的兴趣增加，但在音素级评估自然度的资源仍然有限。在这项工作中，我们通过提出音素级 DeepFake 数据集 (PhonemeDF) 来弥合这一差距，该数据集包含在音素级分割的平行真实和合成语音。真实语音样本源自 LibriSpeech 的子集，而合成样本使用四个 TTS 和三个 VC 系统生成。对于每个系统，使用蒙特利尔强制对齐器 (MFA) 获得音素对齐的 TextGrid 文件。我们计算真实和合成音素分布之间的 Kullback-Leibler 散度 (KLD) 以量化保真度，并建立基于与自然语音相似度的排名。我们的研究结果表明，真实和合成音素分布的 KLD 与训练用于区分它们的分类器的性能之间存在明显相关性，表明 KLD 可以作为深伪检测最具判别性音素的指示器。

SEA-Vision: A Multilingual Benchmark for Comprehensive Document and Scene Text Understanding in Southeast Asia

东南亚 11 种语言的多模态文档和场景文本理解基准

作者: Pengfei Yue et al. | 未注明机构
来源: arXiv
链接: arXiv | PDF

简述: 针对东南亚多语言文档和场景文本理解缺乏评估基准的问题，SEA-Vision 覆盖 11 种东南亚语言，包含 15,234 页文档解析和 7,496 个 TEC-VQA 问答对。

📄 完整摘要（中文翻译）

多语言文档和场景文本理解在搜索、金融和公共服务等应用中发挥着重要作用。然而，大多数现有基准关注高资源语言，无法在真实多语言环境中评估模型。在东南亚，语言多样性、复杂的书写系统和高度多样的文档类型使这一挑战更加严峻。我们引入 SEA-Vision，这是一个在 11 种东南亚语言上联合评估文档解析和文本中心视觉问答 (TEC-VQA) 的基准。SEA-Vision 包含来自 9 种代表性文档类型的 15,234 页文档解析页面，标注了层次化的页面级、块级和行级标签。它还提供 7,496 个 TEC-VQA 问答对，探测文本识别、数值计算、比较分析、逻辑推理和空间理解。为使这种多语言、多任务标注可行，我们设计了用于文档解析和 TEC-VQA 的混合流水线。它结合了自动过滤和评分与 MLLM 辅助标注和轻量级母语者验证，大大减少了手动标注同时保持高质量。我们评估了几个领先的多模态模型，观察到在低资源东南亚语言上性能显著下降，突出了多语言文档和场景文本理解中存在的重大差距。我们相信 SEA-Vision 将有助于推动文档和场景文本理解的全球进步。

MMOU: A Massive Multi-Task Omni Understanding and Reasoning Benchmark for Long and Complex Real-World Videos

大规模多模态理解基准，评估长视频中的音 - 视 - 文联合推理能力

作者: Arushi Goel et al. | NVIDIA 等
来源: HuggingFace Trending
链接: arXiv | PDF

简述: MMOU 包含 15,000 个问题对和 9,038 个网络采集视频，覆盖 13 种技能类别，需要跨模态和时间整合证据；当前最佳闭源模型仅达 64.2% 准确率。

📄 完整摘要（中文翻译）

多模态大语言模型 (MLLMs) 在单独评估视觉和音频理解时表现出强劲性能。然而，它们在长而复杂的视频中对全模态 (视觉、音频和文本) 信号进行联合推理的能力仍未得到充分探索。我们引入 MMOU，这是一个新基准，旨在系统评估在这些具有挑战性的真实世界条件下的多模态理解和推理。MMOU 由 15,000 个精心策划的问题与 9038 个网络采集视频配对组成，视频长度各异，跨越不同领域， exhibiting 丰富的紧密耦合的音视内容。该基准覆盖 13 种基本技能类别，都需要跨模态和时间整合证据。所有问题都由专业标注人员在多轮中手动标注，确保高质量和推理保真度。我们在 MMOU 上评估了 20+ 个最先进的开源和专有多模态模型。结果揭示了显著的性能差距：最佳闭源模型仅达到 64.2% 准确率，而最强开源模型仅达到 46.8%。我们的结果突出了长格式全模态理解的挑战，揭示当前模型经常在长视频中无法应用基本技能。通过详细分析，我们进一步识别系统性失败模式，并提供关于当前模型在何处及为何失效的见解。

🧠 LLM Training

From Passive Observer to Active Critic: Reinforcement Learning Elicits Process Reasoning for Robotic Manipulation

基于结果 RL 将视频 MLLM 从被动"观察者"转变为主动"批评者"，实现机器人操作的过程推理

作者: Yibin Liu et al. | 未注明机构
来源: arXiv
链接: arXiv | PDF

简述: PRIMO R1 是一个 7B 框架，利用基于结果的强化学习激励显式思维链生成以进行进度估计；在 RoboFail 基准上达到 67.0% 准确率，超越 OpenAI o1 达 6.0%。

📄 完整摘要（中文翻译）

准确的过程监督仍然是长视野机器人操作的关键挑战。主要瓶颈是当前视频 MLLM 主要在监督微调 (SFT) 范式下训练，充当被动"观察者"识别正在进行的事件，而不是相对于最终任务目标评估当前状态。在本文中，我们介绍 PRIMO R1 (Process Reasoning Induced Monitoring)，这是一个 7B 框架，将视频 MLLM 转变为主动"批评者"。我们利用基于结果的强化学习来激励显式思维链生成以进行进度估计。此外，我们的架构通过在初始和当前状态图像之间显式锚定视频序列来构建结构化时间输入。在提出的 PRIMO 数据集和基准的支持下，跨多种域内环境和域外真实世界人形场景的广泛实验表明，PRIMO R1 实现了最先进的性能。定量上，我们的 7B 模型在专用推理基线的平均绝对误差上实现了 50% 的降低，展示了相对于 72B 规模通用 MLLM 的显著相对精度改进。此外，PRIMO R1 在困难失败检测任务上表现出强大的零样本泛化能力。我们在 RoboFail 基准上建立了 67.0% 准确率的最先进性能，超过 OpenAI o1 等闭源模型 6.0%。

Listening to the Echo: User-Reaction Aware Policy Optimization via Scalar-Verbal Hybrid Reinforcement Learning

利用用户实时反应进行对话策略优化，超越专家定义的标量奖励

作者: Jing Ye et al. | 未注明机构
来源: arXiv
链接: arXiv | PDF

简述: RAPO 框架将对话视为反应驱动过程，通过后见对话选择、生成式后见反馈和标量 - verbal 混合策略优化三个核心组件，在 ESC 和 Sotopia 上显著超越 RL 基线。

📄 完整摘要（中文翻译）

虽然当前情感支持对话系统通常依赖专家定义的标量奖励进行对齐，但这些信号遭受严重信息稀疏。它们无法解释响应为何失败或如何适应动态用户状态，通常与促进积极情感转变的实际目标 diverging。在实践中，最直接和可靠的学习信号出现在持续交互期间用户的连续反应。因此，我们提出反应感知策略优化 (RAPO)，这是一个在交互后果而非评分标准上优化的框架。RAPO 将对话视为反应驱动过程，利用模拟用户响应通过三个核心组件生成密集的自然语言反馈：后见对话选择，隔离有意义改变用户情感轨迹的关键轮次；生成式后见反馈，将用户反应转换为对比排名信号和自然语言批评；标量 - 口头混合策略优化，耦合标量奖励优化以进行全局对齐与口头反馈蒸馏以进行细粒度语义细化。在 ESC 和 Sotopia 上的广泛实验表明，RAPO 在驱动积极交互结果方面显著优于强大的强化学习基线。

Fusian: Multi-LoRA Fusion for Fine-Grained Continuous MBTI Personality Control in Large Language Models

通过 Multi-LoRA 融合实现 LLM 人格特质的连续强度控制

作者: Zehao Chen, Rong Pan | 未注明机构
来源: arXiv
链接: arXiv | PDF

简述: Fusian 通过轨迹收集 (保存 SFT 过程中的 LoRA 适配器序列) 和基于 RL 的动态融合 (训练策略网络计算混合权重) 两阶段实现连续人格控制，在 Qwen3-14B 上验证有效。

📄 完整摘要（中文翻译）

大语言模型 (LLM) 在模拟多样化人类行为和人格方面表现出令人印象深刻的能力。然而，现有人格控制方法 (包括提示工程和标准监督微调 (SFT)) 通常将人格特质视为离散类别 (如"外向"vs"内向")，缺乏在连续谱上精确控制特质强度的能力。在本文中，我们介绍 Fusian，这是一种用于 LLM 细粒度连续人格控制的新颖框架。Fusian 分两阶段操作：(1) 轨迹收集，我们通过保存 SFT 期间人格采用动态演变的 LoRA 适配器序列，有效映射特质的连续流形；(2) 基于 RL 的动态融合，我们使用强化学习训练策略网络以动态计算这些冻结适配器的混合权重。通过从策略网络参数化的 Dirichlet 分布采样，Fusian 融合多个适配器以使模型输出与特定数值目标强度对齐。在 Qwen3-14B 模型上的实验表明，Fusian 在人格控制方面实现了高精度，在 aligning 用户指定特质强度方面显著优于基线方法。

Not All Invariants Are Equal: Curating Training Data to Accelerate Program Verification with SLMs

通过数据策展流水线提升小语言模型在程序验证中的表现

作者: Ido Pinto et al. | 未注明机构
来源: arXiv
链接: arXiv | PDF

简述: 提出 Wonda 流水线，通过 AST 归一化、LLM 驱动语义重写和可证明质量保证的数据策展，使 4B 模型在不变式生成上接近 GPT-5.2 水平。

📄 完整摘要（中文翻译）

归纳循环不变式的合成是自动程序验证的关键瓶颈。虽然大语言模型 (LLM) 在缓解这一问题方面显示出前景，但它们经常在困难实例上失败，生成无效或计算无效的不变式。虽然微调是缓解这一限制的自然途径，但获得用于不变式生成的高质量训练数据仍然是一个开放性挑战。我们提出一个严格的数据策展流水线，旨在从原始验证器生成的不变式中提取高质量训练信号。首先，我们形式化高质量训练不变式所需的属性。其次，我们提出 Wonda，这是一个通过基于 AST 的归一化精炼噪声数据的流水线，随后进行 LLM 驱动的语义重写和用可证明质量保证进行增强。我们证明在此策展数据集上微调小语言模型 (SLM) 导致一致且显著的性能提升。特别是，微调的 4B 参数模型匹配 GPT-OSS-120B 基线的效用并接近最先进的 GPT-5.2，无需产生推理时开销。在来自最近 InvBench 评估套件挑战性实例上，我们的方法将不变式正确性和加速率翻倍；并将它们在验证任务上的虚拟最佳性能 (VBP) 率提高多达 14.2%。

A Closer Look into LLMs for Table Understanding

实证研究揭示 LLM 理解表格数据的内部机制

作者: Jia Wang et al. | 未注明机构
来源: arXiv
链接: arXiv | PDF

简述: 对 16 个 LLM (通用、表格专用、MoE) 的实证研究发现：LLM 遵循三阶段注意力模式；表格任务比数学推理需要更深层；MoE 在中间层激活表格专用专家。

📄 完整摘要（中文翻译）

尽管大语言模型 (LLM) 在表格理解方面取得成功，但它们的内部机制仍不清楚。在本文中，我们对 16 个 LLM 进行实证研究，涵盖通用 LLM、专用表格 LLM 和专家混合 (MoE) 模型，探索 LLM 如何理解表格数据并执行下游任务。我们的分析聚焦于 4 个维度，包括注意力动态、有效层深度、专家激活和输入设计的影响。关键发现包括：(1) LLM 遵循三阶段注意力模式——早期层广泛扫描表格，中间层定位相关单元格，晚期层放大它们的贡献；(2) 表格任务比数学推理需要更深层才能达到稳定预测；(3) MoE 模型在中间层激活表格专用专家，早期和晚期层共享通用专家；(4) 思维链提示增加表格注意力，通过表格微调进一步增强。我们希望这些发现和见解能促进表格相关任务的可解释性和未来研究。

Physics-informed fine-tuning of foundation models for partial differential equations

物理信息微调框架适应 PDE 基础模型到数据稀缺的下游任务

作者: Vlad Medvedev et al. | 未注明机构
来源: arXiv
链接: arXiv | PDF

简述: 将物理约束 (PDE 残差和边界条件) 直接融入微调目标，实现数据稀缺下的有效适应；混合微调策略在最小训练数据下展现 superior 域外泛化。

📄 完整摘要（中文翻译）

偏微分方程 (PDE) 的基础模型已成为在多样化物理系统上预训练的强大代理，但由于任务特定数据有限和分布偏移，适应它们到新的下游任务仍然具有挑战性。虽然微调已被证明在自然语言处理中具有变革性，但适应 PDE 基础模型的最佳实践仍未得到充分探索。虽然物理信息训练已成功训练跨广泛 PDE 问题的准确求解器，但其用于微调数据驱动基础模型的潜力尚未系统研究。在这项工作中，我们引入一个物理信息微调框架，通过将物理约束 (PDE 残差和边界条件) 直接融入微调目标来适应预训练 PDE 基础模型。这使得在数据稀缺机制下的有效适应，同时促进物理一致性。我们在由未见 PDE 类组成的下游任务上评估我们的方法，并与数据驱动微调对应方法比较。我们的结果表明，物理信息微调实现了竞争性准确性，无需 PDE 解进行训练。此外，混合微调策略在仅有最小训练数据可用时产生 superior 域外场景泛化。这些发现确立物理信息微调为可扩展和数据高效的范式，为科学机器学习中适应基础模型提供物理解释路径。

🤖 AI Agents

Efficient Morphology-Control Co-Design via Stackelberg Proximal Policy Optimization

将形态 - 控制协同设计建模为 Stackelberg 博弈，提升机器人设计效率

作者: Yanning Dai et al. | 包括 Jürgen Schmidhuber
来源: arXiv
链接: arXiv | PDF

简述: Stackelberg PPO 显式将控制适应动态纳入形态优化，通过博弈论视角建模形态与控制的内在耦合，在多样协同设计任务上超越标准 PPO。

📄 完整摘要（中文翻译）

形态 - 控制协同设计涉及代理身体结构和控制策略的耦合优化。该问题呈现双层结构，其中控制动态适应形态以最大化性能。现有方法通常通过采用将控制策略视为固定的单层公式来忽略控制的适应动态。这可能导致低效优化，因为形态更新可能与控制适应不对齐。在本文中，我们从博弈论视角重新审视协同设计问题，将形态和控制之间的内在耦合建模为 Stackelberg 博弈的新颖变体。我们提出 Stackelberg 近端策略优化 (Stackelberg PPO)，显式将控制适应动态纳入形态优化。通过建模这种内在耦合，我们的方法使形态更新与控制适应对齐，从而稳定训练并提高学习效率。跨多样协同设计任务的实验表明，Stackelberg PPO 在稳定性和最终性能方面优于标准 PPO，为 dramatically 更高效的机器人设计开辟道路。

MA-VLCM: A Vision Language Critic Model for Value Estimation of Policies in Multi-Agent Team Settings

用预训练 VLM 替代 MARL 中的学习式评论家，提升样本效率

作者: Shahil Shaik et al. | 未注明机构
来源: arXiv
链接: arXiv | PDF

简述: MA-VLCM 用预训练视觉语言模型微调评估多智能体行为，替代 MARL 中学习式集中评论家；消除评论家学习显著提升样本效率，产生紧凑执行策略。

📄 完整摘要（中文翻译）

多智能体强化学习 (MARL) 通常依赖集中评论家估计值函数。然而，从头学习这样的评论家样本效率极低，经常缺乏跨环境泛化。同时，在互联网规模数据上训练的大视觉 - 语言 - 动作模型 (VLAs) 表现出强大的多模态推理和零样本泛化能力，然而直接将它们部署用于机器人执行仍然计算上 prohibitively，特别是在具有多样化体现和资源约束的异构多机器人系统中。为应对这些挑战，我们提出多智能体视觉语言评论家模型 (MA-VLCM)，这是一个用预训练视觉语言模型微调评估多智能体行为的框架，替代 MARL 中学习式集中评论家。MA-VLCM 充当以自然语言任务描述、视觉轨迹观察和结构化多智能体状态信息为条件的集中评论家。通过消除策略优化期间的评论家学习，我们的方法显著提高样本效率，同时产生适合在资源受限机器人上部署的紧凑执行策略。结果显示在不同 VLM 骨干的模型上在域内和域外场景中多智能体团队设置的良好零样本回报估计。

Bridging Local and Global Knowledge: Cascaded Mixture-of-Experts Learning for Near-Shortest Path Routing

级联 MoE 架构解决稀疏网络中的近最短路径路由问题

作者: Yung-Fu Chen, Anish Arora | 未注明机构
来源: arXiv
链接: arXiv | PDF

简述: Ca-MoE 采用两层架构，下层专家依赖局部特征，上层专家依赖全局特征，仅在需要时触发上层；在稀疏网络中准确率提升达 29.1%。

📄 完整摘要（中文翻译）

虽然利用局部特征的深度学习模型已在稠密欧几里得图中展示近最优路由的显著潜力，但它们在稀疏网络中难以良好泛化，其中拓扑不规则性需要更广泛的结构意识。为应对这一限制，我们训练级联专家混合 (Ca-MoE) 解决全对近最短路径 (APNSP) 路由问题。我们的 Ca-MoE 是模块化两层架构，支持下级转发器选择决策，下层专家依赖局部特征，上层专家依赖全局特征。它执行自适应推理，其中仅当下层专家不足以实现充分决策质量时触发上层专家。因此通过仅在拓扑复杂性需要时升级模型容量实现计算效率，并避免参数冗余。此外，我们纳入在线元学习策略，促进独立专家微调并利用稳定聚焦更新机制以防止在遇到新图环境时灾难性遗忘。实验评估表明，Ca-MoE 路由在稀疏网络中与单专家基线相比准确率提升多达 29.1%，并在多样图密度下保持性能在理论上限的 1%-6% 内。

RESQ: A Unified Framework for REliability- and Security Enhancement of Quantized Deep Neural Networks

三阶段框架平衡量化 DNN 的故障和攻击鲁棒性

作者: Ali Soltan Mohammadi et al. | 未注明机构
来源: arXiv
链接: arXiv | PDF

简述: RESQ 通过三阶段 (攻击弹性微调、故障感知微调、轻量级后训练调整) 实现量化 DNN 的故障和攻击鲁棒性平衡；在 ResNet18 等模型上攻击弹性提升 10.35%，故障弹性提升 12.47%。

📄 完整摘要（中文翻译）

这项工作提出一个统一的三阶段框架，产生具有平衡故障和攻击鲁棒性的量化 DNN。第一阶段通过微调使特征表示对小输入扰动不敏感来提高攻击弹性。第二阶段通过模拟位翻转故障下的故障感知微调加强故障弹性。最后，轻量级后训练调整整合量化以提高效率并进一步减轻故障敏感性，而不降低攻击弹性。在 CIFAR-10、CIFAR-100 和 GTSRB 上的 ResNet18、VGG16、EfficientNet 和 Swin-Tiny 实验显示，攻击弹性一致增益多达 10.35%，故障弹性多达 12.47%，同时保持量化网络中的竞争性准确性。结果还突出不对称交互，其中故障弹性的改进通常增加对抗攻击的弹性，而增强的对抗弹性不一定导致更高故障弹性。

今日 HuggingFace Trending 中无额外高 upvote 论文未在上述分类中出现。

Generated on 2026-03-17 21:35 CST | Sources: arXiv API, HuggingFace Daily Papers

今日概览

重点推荐

NV-Bench: Benchmark of Nonverbal Vocalization Synthesis for Expressive Text-to-Speech Generation

LLMs and Speech: Integration vs. Combination

VoXtream2: Full-stream TTS with dynamic speaking rate control

🔊 Audio LLM

Tagarela - A Portuguese speech dataset from podcasts

Two-Stage Adaptation for Non-Normative Speech Recognition: Revisiting Speaker-Independent Initialization for Personalization

PhonemeDF: A Synthetic Speech Dataset for Audio Deepfake Detection and Naturalness Evaluation

SEA-Vision: A Multilingual Benchmark for Comprehensive Document and Scene Text Understanding in Southeast Asia

MMOU: A Massive Multi-Task Omni Understanding and Reasoning Benchmark for Long and Complex Real-World Videos

🧠 LLM Training

From Passive Observer to Active Critic: Reinforcement Learning Elicits Process Reasoning for Robotic Manipulation

Listening to the Echo: User-Reaction Aware Policy Optimization via Scalar-Verbal Hybrid Reinforcement Learning

Fusian: Multi-LoRA Fusion for Fine-Grained Continuous MBTI Personality Control in Large Language Models

Not All Invariants Are Equal: Curating Training Data to Accelerate Program Verification with SLMs

A Closer Look into LLMs for Table Understanding

Physics-informed fine-tuning of foundation models for partial differential equations

🤖 AI Agents

Efficient Morphology-Control Co-Design via Stackelberg Proximal Policy Optimization

MA-VLCM: A Vision Language Critic Model for Value Estimation of Policies in Multi-Agent Team Settings

Bridging Local and Global Knowledge: Cascaded Mixture-of-Experts Learning for Near-Shortest Path Routing

RESQ: A Unified Framework for REliability- and Security Enhancement of Quantized Deep Neural Networks

📈 Trending 补充