AI Paper Daily | 2026-03-21

今日概览

重点推荐 ⭐

Neuron-Level Emotion Control in Speech-Generative Large Audio-Language Models

首个针对语音生成式大音频语言模型 (LALM) 的神经元级情感控制研究，实现无需训练的情感操控。

作者: Xiutian Zhao et al. (Johns Hopkins University 等)
来源: arXiv
链接: arXiv | PDF
关键贡献:
- 提出情感敏感神经元 (Emotion-Sensitive Neurons, ESNs) 概念，通过成功过滤的激活聚合方法识别
- 在三个 LALM 模型 (Qwen2.5-Omni-7B, MiniCPM-o 4.5, Kimi-Audio) 上验证了 ESN 干预可实现训练时的情感操控
- 情感控制效果可泛化到未见过的说话人，并通过自动和人工评估验证
- 为语音生成中的训练无关 (training-free) 情感控制建立了机制框架
相关技术: LALM, 神经元解释性, 情感控制, 语音生成, 激活干预
代码/权重: 未开源

📄 Abstract 中文翻译

大音频语言模型 (Large Audio-Language Models, LALMs) 可以生成富有表现力的语音，但可靠的情感控制仍然难以实现：转换往往会偏离目标情感，并可能通过拒绝、幻觉或改写而降低语言保真度。据我们所知，这是对语音生成式 LALM 中情感控制的首个神经元级研究，我们证明了紧凑的情感敏感神经元 (Emotion-Sensitive Neurons, ESNs) 具有因果可操作性，能够在推理时实现无需训练的情感操控。ESNs 通过强制情感实现和内容保持的成功过滤激活聚合来识别。在三个 LALM (Qwen2.5-Omni-7B, MiniCPM-o 4.5, Kimi-Audio) 上的实验表明，ESN 干预产生了特定于情感的增益，这些增益可泛化到未见过的说话人，并得到自动和人工评估的支持。可控性取决于选择器设计、掩码稀疏度、过滤和干预强度。我们的结果为语音生成中的训练无关情感控制建立了一个机制框架。

Anticipatory Planning for Multimodal AI Agents

提出 TraceR1，一个两阶段强化学习框架，通过预测短期轨迹来训练多模态 AI 智能体的预期推理能力。

作者: Yongyuan Liang et al. (Adobe Research, University of Maryland 等)
来源: arXiv (CVPR 2026 Findings Track)
链接: arXiv | PDF
关键贡献:
- 指出现有系统大多是反应式的，缺乏对未来状态和长期目标的推理
- TraceR1 第一阶段执行轨迹级强化学习，奖励强制预测动作序列的全局一致性
- 第二阶段应用基于执行的强化微调，使用来自冻结工具智能体的执行反馈来优化步骤级准确性和可执行性
- 在七个基准测试中取得显著提升，涵盖在线/离线计算机使用和 multimodal tool-use 推理任务
相关技术: 多模态智能体, 预期规划, 强化学习, 轨迹预测, 计算机使用
代码/权重: 未开源

📄 Abstract 中文翻译

多模态智能体的最新进展改善了计算机使用交互和工具使用，但大多数现有系统仍然是反应式的，孤立地优化动作，而不对未来状态或长期目标进行推理。这限制了规划的一致性，并阻止智能体可靠地解决高级、多步骤任务。我们介绍了 TraceR1，一个两阶段强化学习框架，通过在执之前预测短期轨迹来显式训练预期推理。第一阶段执行轨迹级强化学习，使用强制预测动作序列全局一致性的奖励。第二阶段应用基于执行的强化微调，使用来自冻结工具智能体的执行反馈来优化步骤级准确性和可执行性。TraceR1 在七个基准测试中进行了评估，涵盖在线计算机使用、离线计算机使用基准和多模态工具使用推理任务，在规划稳定性、执行鲁棒性和泛化能力方面相比反应式和单阶段基线取得了显著提升。这些结果表明，预期轨迹推理是构建能够在复杂现实环境中有效推理、规划和行动的多模态智能体的关键原则。

CodecMOS-Accent: A MOS Benchmark of Resynthesized and TTS Speech from Neural Codecs Across English Accents

首个针对神经音频编解码器和基于 LLM 的 TTS 模型在跨英语口音场景下的大规模 MOS 基准测试。

作者: Wen-Chin Huang, Nicholas Sanders, Erica Cooper
来源: arXiv
链接: arXiv | PDF
关键贡献:
- CodecMOS-Accent 数据集包含来自 24 个系统的 4,000 个编解码器重合成和 TTS 样本
- 涵盖 32 位说话人的十种口音，收集了 19,600 条来自 25 位听者的标注
- 评估维度：自然度、说话人相似度、口音相似度
- 揭示了说话人和口音相似度之间的紧密关系，以及听者与说话人共享口音时的感知偏差
相关技术: 神经音频编解码, TTS, MOS 评估, 口音多样性, 主观评估
代码/权重: 数据集已开源 ✅

📄 Abstract 中文翻译

我们提出了 CodecMOS-Accent 数据集，这是一个平均意见得分 (Mean Opinion Score, MOS) 基准测试，旨在评估神经音频编解码 (Neural Audio Codec, NAC) 模型和基于大型语言模型 (LLM) 的文生语音 (Text-to-Speech, TTS) 模型，特别是在非标准语音（如带口音的语音）上的表现。该数据集包含来自 24 个系统的 4,000 个编解码器重合成和 TTS 样本，涵盖 32 位说话人的十种口音。我们进行了一次大规模主观测试，从 25 位听者那里收集了 19,600 条标注，涵盖三个维度：自然度、说话人相似度和口音相似度。该数据集不仅代表了最近语音合成系统性能的最新研究，还揭示了一些见解，包括说话人和口音相似度之间的紧密关系、客观指标的预测能力，以及当听者与说话人共享相同口音时的感知偏差。该数据集有望促进对 NAC 和带口音 TTS 的更人性化评估研究。

🔊 Audio LLM

Neuron-Level Emotion Control in Speech-Generative Large Audio-Language Models

首个神经元级情感控制研究，实现训练无关的情感操控。

链接: arXiv | PDF
摘要: 提出情感敏感神经元 (ESNs) 概念，通过成功过滤的激活聚合识别。在 Qwen2.5-Omni-7B、MiniCPM-o 4.5、Kimi-Audio 三个模型上验证了 ESN 干预可实现推理时的情感操控，效果可泛化到未见说话人。为语音生成的训练无关情感控制建立机制框架。

📄 Abstract 中文翻译

CodecMOS-Accent: A MOS Benchmark of Resynthesized and TTS Speech from Neural Codecs Across English Accents

跨英语口音的神经编解码器和 TTS 模型 MOS 基准测试。

链接: arXiv | PDF
摘要: CodecMOS-Accent 数据集包含 24 个系统的 4,000 个样本，32 位说话人的十种口音，19,600 条标注。评估自然度、说话人相似度、口音相似度三个维度。揭示了说话人和口音相似度的紧密关系，以及听者与说话人共享口音时的感知偏差。

📄 Abstract 中文翻译

🧠 LLM Training

Knowledge Localization in Mixture-of-Experts LLMs Using Cross-Lingual Inconsistency

利用跨语言不一致性来定位 MoE 模型中负责知识存储的专家。

链接: arXiv | PDF
摘要: 提出利用 LLM 的跨语言不一致性作为 MoE 模型可解释性工具。通过对比模型正确回忆和失败回忆时的路由，识别对知识回答关键的专家。仅停用约 20 个专家 (共 6000 个)，模型在超过 40% 的情况下无法正确回答。提供了一种可扩展的知识定位方法。

📄 Abstract 中文翻译

现代大型语言模型 (LLMs) 在不同语言上继续表现出显著的行为差异，例如能够在某些语言中回忆事实信息而在其他语言中则不能。虽然这通常被研究为一个需要缓解的问题，但在本工作中，我们提出利用这种跨语言不一致性作为混合专家 (Mixture-of-Experts, MoE) 大型语言模型的可解释性工具。我们的知识定位框架对比了模型正确回忆信息的语言集合与失败回忆时的路由。这使我们能够隔离在回答特定知识时发挥功能作用的模型组件。我们的方法分两个阶段进行：(1) 用多样化的语言集合向模型查询困难的事实性问题，生成"成功"和"失败"激活桶，然后 (2) 对 MoE 路由器 logits 应用统计对比分析，以识别对知识重要的专家。为了验证这小部分专家对回答知识问题的必要性，我们停用它们并重新提问。我们发现，尽管只停用了约 20 个专家 (共 6000 个)，模型在超过 40% 的情况下不再正确回答。总的来说，该方法提供了一种现实且可扩展的知识定位方法，以应对日益复杂的大型语言模型。

Deriving Hyperparameter Scaling Laws via Modern Optimization Theory

通过现代优化理论推导超参数缩放定律，统一解释现有经验规则。

链接: arXiv | PDF
摘要: 通过线性最小化预言机 (Linear Minimization Oracle, LMO) 的收敛界视角研究现代一阶优化器的超参数缩放定律。推导出学习率、动量和批量大小作为迭代或 token 预算函数的闭式幂律调度。在固定模型大小下，统一解释了文献中的大部分见解，特别关注动量与批量大小缩放的交互。

📄 Abstract 中文翻译

超参数迁移已成为现代大规模训练方案的重要组成部分。现有方法（如 muP）主要关注模型大小之间的迁移，而跨批量大小和训练范围的迁移通常依赖于经验缩放规则，这些规则基于时间尺度保持、二次代理和连续时间近似等见解。我们通过最近基于线性最小化预言机 (Linear Minimization Oracle, LMO) 方法的收敛界视角，研究现代一阶优化器的超参数缩放定律，该框架包括归一化 SGD、signSGD（近似 Adam）和 Muon。将文献中的界作为代理并在不同调优方案中最小化它们，产生了学习率、动量和批量大小作为迭代或 token 预算函数的闭式幂律调度。我们的分析在固定模型大小的情况下，在统一且原则性的视角下恢复了文献中的大部分见解和观察结果，并为未来研究提供了明确的方向。我们的结果特别关注动量与批量大小缩放之间的交互，表明最佳性能可能通过多种缩放策略实现。

🤖 AI Agents

Anticipatory Planning for Multimodal AI Agents

TraceR1：通过预期轨迹推理提升多模态智能体的规划能力。

链接: arXiv | PDF
摘要: 针对现有智能体系统反应式、缺乏长期规划的局限，提出 TraceR1 两阶段强化学习框架。第一阶段进行轨迹级 RL 训练全局一致性，第二阶段用执行反馈微调步骤级准确性。在七个基准上显著提升规划稳定性和执行鲁棒性。

📄 Abstract 中文翻译

📌 其他值得关注

今日暂无其他值得关注的论文。

由于 arXiv API 和 HuggingFace API 访问受限，今日日报主要基于 web_search 发现的相关论文。建议后续检查以下来源获取更全面的论文列表：

arXiv cs.CL, cs.SD, cs.AI, cs.LG, eess.AS 类别的最新提交
HuggingFace Daily Papers
Papers With Code trending

Generated on 2026-03-21 13:30 UTC | Sources: arXiv (via web_search)

Cover image source: Pixiv

今日概览

重点推荐 ⭐

🔊 Audio LLM

🧠 LLM Training

🤖 AI Agents

📌 其他值得关注

📈 Trending 补充（非昨日但新发现）