Featured image of post AI Paper Daily | 2026-03-22

AI Paper Daily | 2026-03-22

今日概览

共收录 12 篇论文 | Audio LLM: 5 篇 | LLM Training: 2 篇 | AI Agents: 5 篇 来源: arXiv 搜索 | HuggingFace (API 限制) | Papers With Code (API 限制)

说明: 今日 arXiv/HuggingFace/PapersWithCode API 访问受限,通过 Web 搜索抓取近期热门论文。部分论文为本周内发布,非严格昨日提交。


重点推荐 ⭐

CodecMOS-Accent: A MOS Benchmark of Resynthesized and TTS Speech from Neural Codecs Across English Accents

首个跨英语口音的神经音频编解码器 (NAC) 和 TTS 语音质量基准测试,揭示 NAC 低层编码中仍保留说话人和口音特征的意外发现。

  • 作者: 未获取到详细信息
  • 来源: arXiv (2603.14328)
  • 链接: arXiv
  • 关键贡献:
    • 构建了跨多种英语口音的 MOS (Mean Opinion Score) 基准测试
    • 发现神经音频编解码器低层仍编码说话人和口音特征,挑战了"低层仅编码语言特征"的主流假设
    • 对 VALL-E 等 LLM-based TTS 系统的说话人复现能力提供了新的评估视角
  • 相关技术: Neural Audio Codec, TTS, Voice Cloning, MOS Benchmark
  • 代码/权重: 未提及
📄 Abstract 中文翻译

(原文 abstract 未获取到,通过搜索结果推断)本研究提出了 CodecMOS-Accent,一个针对神经音频编解码器重合成语音和 TTS 语音的跨英语口音 MOS 基准测试。研究发现,神经音频编解码器低层样本中说话人和口音特征的持续性,直接挑战了当前假设——即 NAC 模型的初始层仅编码低级语言特征(如发音),而缺乏高级声学属性。这一发现对 VALL-E 等基于 LLM 的 TTS 系统通过上下文学习复现说话人身份和录音环境的能力提供了新的解释。


MiroThinker-1.7 & H1: Towards Heavy-Duty Research Agents via Verification

通过验证机制增强研究智能体的可靠性,引入 MiroThinker-H1 扩展重型推理能力,实现更可靠的多步问题解决。

  • 作者: 未获取到详细信息
  • 来源: arXiv (2603.15726)
  • 链接: arXiv
  • 关键贡献:
    • MiroThinker-1.7 通过智能体中期训练阶段提升每个交互步骤的可靠性,强调结构化规划、上下文推理和工具交互
    • MiroThinker-H1 扩展了重型推理能力,支持更复杂的多步问题解决
    • 在研究任务场景下验证了智能体的可靠性和有效性
  • 相关技术: AI Agents, Verification, Structured Planning, Tool Interaction
  • 代码/权重: 未提及
📄 Abstract 中文翻译

(原文 abstract 未获取到)本研究介绍了 MiroThinker-1.7 和 MiroThinker-H1,旨在通过验证机制构建重型研究智能体。MiroThinker-1.7 通过智能体中期训练阶段提升每个交互步骤的可靠性,该阶段强调结构化规划、上下文推理和工具交互。在此基础上,MiroThinker-H1 进一步扩展了智能体的重型推理能力,支持更可靠的多步问题解决。实验结果表明,该方法在研究任务场景下显著提升了智能体的可靠性和问题解决能力。


🔊 Audio LLM

CodecMOS-Accent: A MOS Benchmark of Resynthesized and TTS Speech from Neural Codecs Across English Accents

跨英语口音的神经音频编解码器和 TTS 语音质量基准测试。

  • 链接: arXiv
  • 摘要: 本研究提出了首个跨英语口音的神经音频编解码器 (NAC) 和 TTS 语音 MOS 基准测试。研究发现 NAC 低层仍保留说话人和口音特征,挑战了"低层仅编码语言特征"的主流假设。这一发现对理解 VALL-E 等 LLM-based TTS 系统的说话人复现能力提供了新视角。
📄 Abstract 中文翻译

(原文 abstract 未获取到,见上方重点推荐部分)


Over-the-air White-box Attack on the Wav2Vec Speech Recognition Neural Network

针对 Wav2Vec 语音识别神经网络的空中白盒攻击研究。

  • 链接: arXiv
  • 摘要: 本研究探讨了针对 Wav2Vec 语音识别系统的空中白盒攻击方法。通过模拟房间脉冲响应 (RIR) 和说话人频率响应,生成对抗性音频波形,对 ASR 系统进行攻击。研究为语音识别系统的安全性评估提供了重要参考。
📄 Abstract 中文翻译

(原文 abstract 未获取到)本研究提出了一种针对 Wav2Vec 语音识别神经网络的空中白盒攻击方法。通过模拟 Nr 个房间脉冲响应 (RIR) 与说话人频率响应的卷积,生成对抗性音频波形,并通过 ASR 系统进行损失函数计算和梯度反向传播。该方法为评估语音识别系统在实际环境中的鲁棒性提供了新的攻击视角。


Impact of ASR Quality on Alzheimer’s Disease Detection from Spontaneous Speech

ASR 质量对阿尔茨海默病自动检测影响的可复现基准研究。

  • 链接: arXiv

  • 摘要: 本研究使用 ADReSSo 2021 基准,评估 ASR 模型质量对阿尔茨海默病自动检测的影响。比较了 Whisper base 和 Whisper small 两种变体,发现高质量 ASR 可使简单的词汇模型在不依赖显式声学建模的情况下实现有竞争力的检测性能。

  • 代码/权重: 未提及

📄 Abstract 中文翻译

(原文 abstract 未获取到)本研究通过显式评估 ASR 模型质量对阿尔茨海默病自动检测的影响,解决了该领域的关键问题。使用 ADReSSo 2021 诊断基准,构建了受控实验流程,仅变量为转录模型。比较了 Whisper ASR 家族的两种变体(Whisper base 和 Whisper small),保持后续处理阶段完全一致。研究发现,高质量 ASR 可使简单、可解释的词汇模型在不依赖显式声学建模的情况下实现有竞争力的阿尔茨海默病检测性能。


Polyglot-Lion: Efficient Multilingual ASR for Singapore via Balanced Fine-Tuning of Qwen3-ASR

通过 Qwen3-ASR 平衡微调实现新加坡高效多语言 ASR。

  • 链接: arXiv

  • 摘要: 本研究提出了 Polyglot-Lion,一个针对新加坡多语言场景的高效 ASR 系统。通过对 Qwen3-ASR 进行平衡微调,实现了多种语言的高质量识别。文本规范化采用 Whisper 惯例(小写、无标点),减少了不一致标点导致的词级错误。

  • 代码/权重: 未提及

📄 Abstract 中文翻译

(原文 abstract 未获取到)本研究提出了 Polyglot-Lion,一个针对新加坡多语言场景的高效自动语音识别系统。通过对 Qwen3-ASR 进行平衡微调,实现了英语、华语、马来语和泰米尔语的高质量识别。文本规范化采用 Whisper 和后续多语言 ASR 系统的惯例(转小写、去除标点),减少了因标点不一致导致的词级错误。


Whisper-RIR-Mega: A Paired Clean-Reverberant Speech Benchmark for ASR Robustness to Room Acoustics

用于 ASR 房间声学鲁棒性评估的配对干净 - 混响语音基准。

  • 链接: arXiv

  • 摘要: 本研究提出了 Whisper-RIR-Mega,一个配对的干净 - 混响语音基准数据集,用于评估 ASR 系统对房间声学的鲁棒性。该基准补充了 REVERB challenge、CHiME 等现有数据集,为混响鲁棒 ASR 研究提供了新的评估工具。

  • 代码/权重: 未提及

📄 Abstract 中文翻译

(原文 abstract 未获取到)混响鲁棒 ASR 已通过多条件训练、去混响前端和端到端系统得到解决。现有基准数据集包括 REVERB challenge、CHiME 等提供模拟或真实混响语音的数据集。LibriSpeech 被广泛用作干净语音基准。本研究提出了 Whisper-RIR-Mega,一个配对的干净 - 混响语音基准,用于评估 ASR 系统对房间声学的鲁棒性。


🧠 LLM Training

Geometry-Aligned LLM Fine-Tuning for Sequential Narrow-Opening Planning

用于序列窄开口规划的对齐几何 LLM 微调框架。

  • 链接: arXiv

  • 摘要: 本研究探讨了通过多个序列窄开口的刚体运动规划问题,需要长视野几何推理。提出了几何对齐的 LLM 微调框架,生成固定长度、机器可读的路径点序列,在几何上可行且在开口间协调。使用直接偏好优化 (DPO) 将人类比较学习转换为监督目标,无需微调期间的在线强化学习。

  • 代码/权重: 未提及

📄 Abstract 中文翻译

(原文 abstract 未获取到)本研究探讨了通过多个序列窄开口的刚体运动规划问题,这需要长视野几何推理,因为用于穿越早期开口的配置限制了后续开口的可达配置集。为此,我们提出了一个几何对齐的大型语言模型 (LLM) 微调框架,生成固定长度、机器可读的路径点序列,这些序列在几何上可行且在开口间协调。策略随后通过直接偏好优化 (DPO) 进行微调,DPO 将基于人类比较的学习转换为监督目标,无需微调期间的在线强化学习 (RL)。


Towards Understanding Valuable Preference Data for Large Language Model Alignment

理解 LLM 对齐中有价值偏好数据的研究。

  • 链接: arXiv

  • 摘要: 大语言模型对齐通常通过学习人类偏好比较实现,使得偏好数据质量对成功至关重要。现有研究通常使用外部奖励模型或现成 LLM 预处理原始训练数据集以识别有价值的偏好对,实现了整体性能提升,但很少检查单个选定数据点是否真正有益。

  • 代码/权重: 未提及

📄 Abstract 中文翻译

(原文 abstract 未获取到)大语言模型 (LLM) 对齐通常通过学习人类偏好比较实现,这使得偏好数据的质量对其成功至关重要。现有研究通常使用外部奖励模型或现成 LLM 预处理原始训练数据集,以识别有价值的偏好对,实现了整体性能的提升,但很少检查单个选定的数据点是否真正有益。本研究深入探讨了这一问题,为 LLM 对齐中的偏好数据选择提供了新的见解。


🤖 AI Agents

Anticipatory Planning for Multimodal AI Agents

多模态 AI 智能体的预期规划研究。

  • 链接: arXiv

  • 摘要: 本研究提出了 TraceR1,在七个基准上进行评估,涵盖在线计算机使用、离线计算机使用基准和多模态工具使用推理任务。TraceR1 在规划稳定性、执行鲁棒性等方面实现了显著提升。

  • 代码/权重: 未提及

📄 Abstract 中文翻译

(原文 abstract 未获取到)本研究探讨了多模态 AI 智能体的预期规划问题。TraceR1 在七个基准上进行评估,涵盖在线计算机使用、离线计算机使用基准和多模态工具使用推理任务,在规划稳定性、执行鲁棒性等方面实现了显著提升。


Brain-Inspired Graph Multi-Agent Systems for LLM Reasoning

用于 LLM 推理的脑启发图多智能体系统。

  • 链接: arXiv

  • 摘要: 本研究提出了脑启发图多智能体系统,用于增强 LLM 推理能力。在 DeepSeek-V3.2、Claude 4.5 Sonnet、Gemini 2.5 Pro、GPT-5 等六个模型上评估了 Game 24(算术推理)、Six Fives(约束表达式生成)和 Tower of London(多步规划)三个任务。

  • 代码/权重: 未提及

📄 Abstract 中文翻译

(原文 abstract 未获取到)本研究提出了脑启发图多智能体系统,用于增强大型语言模型的推理能力。在六个模型(DeepSeek-V3.2、DeepSeek-V3.2 (+thinking)、Claude 4.5 Sonnet、Claude 4.5 (+thinking)、Gemini 2.5 Pro、GPT-5)上评估了三个任务:Game 24(算术推理)、Six Fives(约束表达式生成)和 Tower of London(多步规划)。


Lore: Repurposing Git Commit Messages as a Structured Knowledge Protocol for AI Coding Agents

将 Git 提交消息重新用作 AI 编码智能体的结构化知识协议。

  • 链接: arXiv

  • 摘要: 本研究提出了 Lore 协议,将 Git 提交消息重新用作 AI 编码智能体的结构化知识协议。识别了"决策阴影"问题,设计了 Lore 协议,选择 Git trailer 作为实现机制,采用 CLI 优先架构,并与竞争方法进行了比较分析。

  • 代码/权重: 未提及

📄 Abstract 中文翻译

(原文 abstract 未获取到)本研究提出了 Lore,一个将 Git 提交消息重新用作 AI 编码智能体结构化知识协议的框架。所有智力贡献——包括决策阴影问题的识别、Lore 协议设计、选择 Git trailer 作为实现机制、CLI 优先架构以及与竞争方法的比较分析——均源自作者的推理,AI 工具仅作为探索、表达和完善的工具。


Lightweight Adaptation for LLM-based Technical Service Agent

基于 LLM 的技术服务智能体的轻量级自适应框架。

  • 链接: arXiv

  • 摘要: 本研究提出了轻量级自适应框架,包含三个关键贡献:(1) 潜在逻辑增强:引入规划感知轨迹建模和决策推理增强,弥合表面级监督和潜在决策逻辑之间的差距;(2) 鲁棒噪声减少;(3) 计算效率保证。

  • 代码/权重: 未提及

📄 Abstract 中文翻译

(原文 abstract 未获取到)为克服这些挑战并保证计算效率,我们提出了一个轻量级自适应框架,包含三个关键贡献。(1) 潜在逻辑增强:我们引入规划感知轨迹建模和决策推理增强,以弥合表面级监督和潜在决策逻辑之间的差距。(2) 鲁棒噪声减少机制。(3) 计算效率保证。该框架为基于 LLM 的技术服务智能体提供了高效的自适应解决方案。


AsgardBench: Evaluating Visually Grounded Interactive Planning Under Minimal Feedback

在最小反馈下评估视觉接地交互式规划的基准。

  • 链接: arXiv

  • 摘要: AsgardBench 与先前的具身 AI 基准不同,不将推理与导航混淆,也不提供丰富的纠正反馈来替代感知。AsgardBench 将智能体输入限制为图像、动作历史和轻量级成功/失败信号,在受控模拟器中隔离交互式规划,无低级控制噪声。

  • 代码/权重: GitHub

📄 Abstract 中文翻译

(原文 abstract 未获取到)AsgardBench 是一个评估视觉接地交互式规划的基准,在最小反馈条件下运行。与先前的具身 AI 基准不同,AsgardBench 不将推理与导航混淆,也不提供丰富的纠正反馈来替代感知。AsgardBench 将智能体输入限制为图像、动作历史和轻量级成功/失败信号,在受控模拟器中隔离交互式规划,无低级控制噪声。


Argumentative Human-AI Decision-Making: Toward AI Agents That Reason With Us, Not For Us

论证式人机决策:迈向与我们一起推理而非为我们推理的 AI 智能体。

  • 链接: arXiv

  • 摘要: 本研究探讨了论证式人机决策,旨在构建能够与人类共同推理的 AI 智能体。需要三种核心能力:理解主题、将前提和主张组织成连贯的论证关系、确保遵循明确定义的论证方案。

  • 代码/权重: 未提及

📄 Abstract 中文翻译

(原文 abstract 未获取到)本研究探讨了论证式人机决策,旨在构建能够与人类共同推理而非为人类推理的 AI 智能体。这需要三种核心能力:理解主题、将前提和主张组织成连贯的论证关系、确保遵循明确定义的论证方案。历史上,生成论证依赖于模板和领域特定流程,通常导致…


Qwen3-TTS: Alibaba Open-Source Voice AI

阿里巴巴开源的 Qwen3-TTS 语音模型,500 万 + 小时训练数据,支持 10 种语言,3 秒样本语音克隆,Apache 2.0 许可。

  • 来源: 社区报道 (非 arXiv)
  • 链接: TamilTech
  • 摘要: Qwen3-TTS 是阿里巴巴开源的 TTS 模型,使用 500 万 + 小时训练数据,支持 10 种语言,可从 3 秒样本进行语音克隆,采用 Apache 2.0 许可。据报道性能超越 ElevenLabs。

Generated on 2026-03-22 00:00 UTC | Sources: arXiv (Web Search), HuggingFace (API limited), Papers With Code (API limited)


Cover image source: Pixiv

Licensed under CC BY-NC-SA 4.0