AI Paper Daily | 2026-03-18

今日概览

⚠️ 注：由于 arXiv API、HuggingFace API 和 Papers With Code API 端点被网络代理阻断，本期日报数据通过 WebSearch 间接获取，可能未完全覆盖所有昨日提交论文。建议直接浏览 arXiv eess.AS、arXiv cs.CL 及 HuggingFace Daily Papers 2026-03-17 获取完整列表。

重点推荐 ⭐

Resonate: Reinforcing Text-to-Audio Generation via Online Feedback from Large Audio Language Models

首次将在线 GRPO 强化学习引入 Text-to-Audio 生成，利用大型音频语言模型作为奖励信号，470M 参数即达到 SOTA

作者: Xiquan Li et al.
来源: arXiv
链接: arXiv | GitHub
关键贡献: 提出将在线 Group Relative Policy Optimization (GRPO) 应用于 Flow Matching 音频模型的方法。引入大型音频语言模型 (LALM) 作为奖励函数，提供比 CLAP 更细粒度、更贴近人类感知的评分信号。仅用 470M 参数在 TTA-Bench 上同时在音频质量和语义对齐方面取得新 SOTA。
相关技术: GRPO, Flow Matching, LALM, DPO, Text-to-Audio
代码/权重: 已开源 ✅

📄 Abstract 中文翻译

强化学习 (Reinforcement Learning, RL) 已成为增强大型语言模型 (Large Language Models, LLMs) 和视觉生成模型的有效范式。然而，其在文本到音频 (Text-to-Audio, TTA) 生成中的应用仍然很少被探索。先前的工作通常采用离线方法如直接偏好优化 (Direct Preference Optimization, DPO)，并利用对比语言-音频预训练 (Contrastive Language-Audio Pretraining, CLAP) 模型作为奖励函数。在本研究中，我们探索将在线群组相对策略优化 (Group Relative Policy Optimization, GRPO) 集成到 TTA 生成中。我们将该算法适配于基于 Flow Matching 的音频模型，并证明在线 RL 显著优于其离线对应方法。此外，我们引入了来自大型音频语言模型 (Large Audio Language Models, LALMs) 的奖励，这些模型可以提供更细粒度的评分信号，更好地与人类感知对齐。仅用 470M 参数，我们的最终模型 Resonate 在 TTA-Bench 上在音频质量和语义对齐方面均建立了新的 SOTA。

Nudging Hidden States: Training-Free Model Steering for Chain-of-Thought Reasoning in Large Audio-Language Models

无需训练即可提升大型音频语言模型推理能力，发现文本引导向量可跨模态迁移到语音推理

作者: Lok-Lam Ieong, Chia-Chien Chen, Chih-Kai Yang, Yu-Han Huang, An-Yu Cheng, Hung-yi Lee
来源: arXiv
链接: arXiv
关键贡献: 首次系统研究推理时模型引导 (inference-time model steering) 在大型音频语言模型中的应用。提出三种利用不同信息源的引导策略，在四个 LALM 和四个基准上验证。最重要的发现是跨模态迁移现象：从少量文本样本中导出的引导向量 (steering vectors) 可以有效指导语音推理任务，展示了极高的数据效率。
相关技术: Chain-of-Thought, Steering Vectors, LALM, Cross-modal Transfer
代码/权重: 未提及

📄 Abstract 中文翻译

链式思维 (Chain-of-Thought, CoT) 提示已被扩展到大型音频语言模型 (Large Audio-Language Models, LALMs) 以引发推理，但在不进行训练的情况下增强其有效性仍具挑战性。我们研究推理时模型引导 (inference-time model steering) 作为一种无需训练的方法来改进 LALM 推理，引入了三种利用多样信息源的策略，并在四个 LALM 和四个基准上对其进行评估。结果显示，相比 CoT 提示，准确率普遍提升最高达 4.4%。值得注意的是，我们发现了一种跨模态迁移 (cross-modal transfer) 现象，即从少量文本样本导出的引导向量 (steering vectors) 可以有效指导基于语音的推理，展示了极高的数据效率。

LLMs and Speech: Integration vs. Combination

系统比较 Speech LLM 紧密集成 vs. 浅层融合两大范式，提供全面消融实验

作者: Robin Schmitt, Albert Zeyer, Mohammad Zeineldeen, Ralf Schlüter, Hermann Ney
来源: arXiv (Interspeech 2026 投稿)
链接: arXiv
关键贡献: 对利用预训练 LLM 进行 ASR 的两种范式进行了全面比较：声学模型与 LLM 的紧密集成 (“speech LLM”) vs. 传统浅层融合 (shallow fusion)。针对紧密集成方案，提供了关于标签单元、微调策略、LLM 规模和预训练数据、注意力接口、编码器降采样、文本提示和长度归一化的详细消融实验。此外研究了与 CTC 模型的联合识别以缓解 speech LLM 的幻觉问题。
相关技术: Speech LLM, Shallow Fusion, CTC, ASR, Hallucination Mitigation
代码/权重: 未提及

📄 Abstract 中文翻译

我们研究如何最有效地利用预训练大型语言模型 (LLMs) 进行自动语音识别 (Automatic Speech Recognition, ASR)。具体而言，我们比较了声学模型 (Acoustic Model, AM) 与 LLM 的紧密集成（即 “speech LLM”）与通过浅层融合 (shallow fusion) 组合 AM 和 LLM 的传统方式。对于紧密集成，我们提供了关于不同标签单元、微调策略、LLM 规模和预训练数据、注意力接口、编码器降采样、文本提示和长度归一化的消融实验。此外，我们还研究了与 CTC 模型的联合识别以缓解 speech LLM 的幻觉问题，并提出了该联合识别的有效优化方案。

Resurfacing Paralinguistic Awareness in Large Audio Language Models

发现大型音频语言模型存在副语言感知层，提出选择性层微调方案超越全层微调

作者: 未详
来源: arXiv
链接: arXiv
关键贡献: 发现 LALM 在内容为中心的训练范式下忽视了副语言线索 (paralinguistic cues)。通过五种层级分析方法联合识别出副语言层和语义理解层。提出副语言增强微调协议 (PE-FT)，包括选择性层微调和辅助双级分类头，效果甚至超越全层微调策略。
相关技术: Paralinguistic, LALM, Layer-wise Analysis, Selective Fine-tuning
代码/权重: 未提及

📄 Abstract 中文翻译

大型音频语言模型 (Large Audio Language Models, LALMs) 已将人机交互扩展到语音模态，由于副语言线索 (paralinguistic cues) 隐含地指示了用户上下文，这引入了巨大的交互潜力。然而，建立在当前以内容为中心的范式之上，LALMs 通常忽略此类副语言线索，仅基于查询内容进行响应。为重新激活 LALMs 中的副语言感知，我们引入五种多样的层级分析方法，联合识别副语言层和语义理解层。基于这些洞察，我们提出副语言增强微调 (Paralinguistic-Enhanced Fine-Tuning, PE-FT) 协议，为 LALMs 赋予副语言感知能力，包括选择性层微调和辅助双级分类头。实验表明，PE-FT 协议高效且有效地重新激活了副语言感知，甚至超越了全层微调策略的性能。

🔊 Audio LLM

LLM-Guided Reinforcement Learning for Audio-Visual Speech Enhancement

利用音频 LLM 生成自然语言描述作为 PPO 奖励信号，提升视听语音增强的感知质量

链接: arXiv
摘要: 提出基于强化学习的视听语音增强 (AVSE) 框架，使用 LLM 生成的可解释奖励模型。音频 LLM 生成增强语音的自然语言描述，经情感分析模型转换为 1-5 评分作为 PPO 奖励。在 AVSEC-4 数据集上的 PESQ、STOI 等指标均优于监督基线和 DNSMOS-based RL 基线。投稿至 Interspeech 2026。

📄 Abstract 中文翻译

在现有的视听语音增强 (Audio-Visual Speech Enhancement, AVSE) 方法中，规模不变信噪比 (Scale-Invariant Signal-to-Noise Ratio, SI-SNR) 和均方误差 (Mean Squared Error, MSE) 等目标被广泛使用；然而，它们通常与感知质量的相关性较差，且为优化提供的可解释性有限。我们提出了一种基于强化学习的 AVSE 框架，配备基于大型语言模型 (LLM) 的可解释奖励模型。音频 LLM 生成增强语音的自然语言描述，然后由情感分析模型将其转换为 1-5 的评分，作为 PPO 奖励来微调预训练的 AVSE 模型。在第四届 COG-MHEAR AVSE 挑战赛 (AVSEC-4) 数据集上的实验表明，所提方法在 PESQ、STOI、神经质量指标和主观听力测试方面均优于监督基线和基于 DNSMOS 的 RL 基线。

Uni-ASR: Unified LLM-Based Architecture for Non-Streaming and Streaming Automatic Speech Recognition

统一非流式和流式 ASR 的 LLM 架构，支持无缝切换两种识别模式

链接: arXiv
摘要: 提出 Uni-ASR，一个基于 LLM 的统一框架，同时支持非流式和流式语音识别。通过联合训练范式实现两种模式的无缝切换，无需任何架构修改。引入上下文感知训练范式和回退解码策略，在不增加延迟的情况下提升流式识别精度。投稿至 Interspeech 2026。

📄 Abstract 中文翻译

尽管自动语音识别 (Automatic Speech Recognition, ASR) 系统与大型语言模型 (LLMs) 的深度集成显著提升了准确率，但此类系统在低延迟流式场景中的部署仍然具有挑战性。本文提出 Uni-ASR，一个基于 LLM 的统一框架，集成了非流式和流式语音识别能力。我们提出联合训练范式，使系统能够在两种识别模式之间无缝切换，无需任何架构修改。此外，我们引入上下文感知训练范式和协同设计的回退解码策略，可在不引入额外延迟的情况下增强流式识别精度。

CodecMOS-Accent: A MOS Benchmark of Resynthesized and TTS Speech from Neural Codecs Across English Accents

首个跨口音评估神经音频编解码器和 LLM-TTS 的 MOS 基准，涵盖 10 种口音

链接: arXiv
摘要: 发布 CodecMOS-Accent 数据集，专门评估神经音频编解码器 (NAC) 和基于 LLM 的 TTS 模型在非标准口音语音上的表现。包含 24 个系统的 4,000 个样本，覆盖 10 种英语口音的 32 位说话人，收集了 25 位听众的 19,600 条主观评注，涵盖自然度、说话人相似度和口音相似度三个维度。

📄 Abstract 中文翻译

我们提出 CodecMOS-Accent 数据集，这是一个平均意见分 (Mean Opinion Score, MOS) 基准，旨在评估神经音频编解码器 (Neural Audio Codec, NAC) 模型以及基于其训练的大型语言模型 (LLM) 文本到语音 (Text-to-Speech, TTS) 模型，尤其是在口音语音等非标准语音上的表现。该数据集包含来自 24 个系统的 4,000 个编解码器重合成和 TTS 样本，涵盖 10 种口音的 32 位说话人，通过大规模主观测试从 25 位听众处收集了 19,600 条标注，涵盖三个维度：自然度、说话人相似度和口音相似度。

Speech Codec Probing from Semantic and Phonetic Perspectives

系统分析语音 tokenizer 编码的语义与音素信息，揭示当前 tokenizer 主要捕获音素而非词汇语义

链接: arXiv
摘要: 语音 tokenizer 是将语音连接到多模态 LLM 系统的关键组件。本文系统分析了多个广泛使用的语音 tokenizer 所编码的信息，通过词级探测任务、逐层表征分析和 CKA 等跨模态对齐指标，解耦了语义和音素内容。结果表明，当前 tokenizer 主要捕获音素而非词汇语义结构，为下一代语音 tokenization 方法提供了设计启示。

📄 Abstract 中文翻译

语音分词器 (speech tokenizers) 对于在多模态系统中将语音连接到大型语言模型 (LLMs) 至关重要。这些分词器预期应同时保留语义和声学信息，以服务于下游的理解和生成任务。然而，新的证据表明，语音表征中所称的"语义"与文本派生的语义并不一致：这种不匹配可能降低多模态 LLM 的性能。本文中，我们系统地分析了几种广泛使用的语音分词器所编码的信息，通过词级探测任务 (word-level probing tasks)、逐层表征分析 (layerwise representation analysis) 和 CKA 等跨模态对齐指标来解耦其语义和音素内容。我们的结果表明，当前分词器主要捕获音素而非词汇-语义结构，并据此提出了下一代语音分词方法设计的实践启示。

Investigating Group Relative Policy Optimization for Diffusion Transformer based Text-to-Audio Generation

将 GRPO 强化学习应用于基于 DiT 的文本到音频生成，结合 LLM 生成精细标注

链接: arXiv
摘要: 在 Diffusion Transformer (DiT) 架构基础上，探索使用 GRPO 强化学习提升 T2A 生成质量。首先利用 LLM 生成高保真、细节丰富的音频标注以改善文本-音频语义对齐，然后应用 GRPO 微调 T2A 模型。

📄 Abstract 中文翻译

文本到音频 (Text-to-Audio, T2A) 生成近年来取得了长足进步，但现有方法在准确渲染复杂文本提示（特别是涉及复杂音频效果的提示）和实现精确的文本-音频对齐方面仍面临挑战。虽然先前的方法已探索了数据增强、显式时序条件和强化学习，但整体合成质量仍受限。作者在基于 Diffusion Transformer (DiT) 的架构上实验强化学习以进一步提升 T2A 生成质量。其方法首先使用大型语言模型 (LLM) 生成高保真、细节丰富的音频标注，大幅改善了文本-音频语义对齐，特别是对于模糊或欠指定的提示，然后应用群组相对策略优化 (Group Relative Policy Optimization, GRPO) 来微调 T2A 模型。

NV-Bench: Benchmark of Nonverbal Vocalization Synthesis for Expressive Text-to-Speech Generation

首个基于功能分类学的非语言发声合成基准，覆盖 14 种 NV 类别

链接: arXiv
摘要: 最近的 TTS 系统越来越多地集成非语言发声 (NVs)，但其评估缺乏标准化指标。NV-Bench 是首个基于功能分类学、将 NVs 视为交际行为的基准。包含 1,651 条多语言真实环境语料，匹配人类参考音频，平衡覆盖 14 种 NV 类别。引入双维评估协议：指令对齐度 (PCER 指标) 和声学保真度。

📄 Abstract 中文翻译

尽管最近的文本到语音 (Text-to-Speech, TTS) 系统越来越多地集成非语言发声 (Nonverbal Vocalizations, NVs)，但它们的评估缺乏标准化指标和可靠的真值参考。为弥补这一差距，NV-Bench 是首个基于功能分类学的基准，将 NVs 视为交际行为而非声学伪迹。NV-Bench 包含 1,651 条多语言、真实环境中的语料，配对人类参考音频，平衡覆盖 14 种 NV 类别。该基准引入双维评估协议：(1) 指令对齐度，利用所提出的副语言字符错误率 (Paralinguistic Character Error Rate, PCER) 评估可控性；(2) 声学保真度，测量与真实录音的分布差距以评估声学逼真度。

Self-Speculative Decoding for LLM-based ASR with CTC Encoder Drafts

利用 CTC 编码器作为草稿模型加速 Speech LLM 推理 4.4 倍，同时降低 WER

链接: arXiv
摘要: 提出利用 CTC 编码器作为草稿模型的自推测解码方法，加速 speech-aware LLM 的自回归推理。三步流程：CTC 置信度高时直接接受；否则通过单次 LLM 前向传播验证；验证失败则从已接受前缀恢复 AR 解码。在 1B LLM + 440M CTC 编码器上取得 5.58% WER 的记录，推理速度提升 4.4 倍。来自 IBM Research。

📄 Abstract 中文翻译

本文提出了针对语音感知 LLM 的自推测解码方法，利用 CTC 编码器作为草稿模型来加速自回归 (Auto-Regressive, AR) 推理并提升 ASR 精度。三步流程如下：(1) 如果 CTC 输出分布的帧熵低于阈值，则贪心 CTC 假设被接受为最终结果；(2) 否则，CTC 假设通过单次 LLM 前向传播使用基于 token 似然的宽松接受准则进行验证；(3) 如果验证失败，AR 解码从已接受的 CTC 前缀恢复。在九个语料库和五种语言上的实验表明，该方法可以同时加速解码并降低 WER。在 HuggingFace Open ASR 基准上使用 1B 参数 LLM 和 440M 参数 CTC 编码器，取得了 5.58% WER 的记录，并将逆实时因子提升了 4.4 倍，WER 仅相对增加 12%。

Entropy-Guided GRVQ for Ultra-Low Bitrate Neural Speech Codec

面向超低比特率的熵引导分组残差向量量化语音编解码器

链接: arXiv
摘要: 神经音频编解码器对于重建高质量语音信号和为下游语音语言模型生成离散表征至关重要。本文提出基于熵引导的分组残差向量量化 (GRVQ) 方法，实现超低比特率神经语音编解码。

📄 Abstract 中文翻译

神经音频编解码器 (Neural Audio Codec) 对于重建高质量语音信号以及为下游语音语言模型 (Speech Language Models) 生成离散表征至关重要。本文提出熵引导的分组残差向量量化 (Entropy-Guided Grouped Residual Vector Quantization, GRVQ) 方法，用于超低比特率的神经语音编解码。

Can LLMs Help Localize Fake Words in Partially Fake Speech?

探索利用 LLM 定位部分伪造语音中的假词，来自 JHU 和小米

链接: arXiv
摘要: 研究文本训练的 LLM 能否帮助定位部分伪造语音中被编辑的假词。构建 speech LLM 通过下一 token 预测执行假词定位。在 AV-Deepfake1M 和 PartialEdit 数据集上的实验显示，模型倾向于利用编辑风格模式作为定位线索，改善泛化性仍是开放问题。投稿至 Interspeech 2026。

📄 Abstract 中文翻译

本文探索文本训练的大型语言模型 (LLM) 能否帮助定位部分伪造语音中的假词，即语音中只有特定词语被编辑的场景。我们构建了一个语音 LLM，通过下一 token 预测来执行假词定位。在 AV-Deepfake1M 和 PartialEdit 数据集上的实验和分析表明，模型经常利用从训练数据中学到的编辑风格模式，特别是词级极性替换，作为定位假词的线索。然而，避免过度依赖此类特定模式并提高对未见编辑风格的泛化能力仍然是一个开放问题。

Silent Speech Interfaces in the Era of Large Language Models: A Comprehensive Taxonomy and Systematic Review

首次在 LLM 时代背景下系统综述静默语音接口技术

链接: arXiv
摘要: 提出从传统换能器分析到整体意图-执行分类学的转变。系统评估跨四个关键生理截取点的传感模态：神经振荡、神经肌肉激活、关节运动学和主动探测。分析了从启发式信号处理到潜在语义对齐 (Latent Semantic Alignment) 的范式转变。

📄 Abstract 中文翻译

人机交互传统上依赖于声学通道，这种依赖引入了对环境噪声、隐私约束和生理语音障碍的系统性脆弱性。静默语音接口 (Silent Speech Interfaces, SSIs) 作为一种变革性范式出现，通过直接从神经-肌肉-关节连续体中解码语言意图来绕过声学阶段。本综述提供了 SSI 领域的高层次综合，从传统的以换能器为中心的分析过渡到整体的意图-执行分类学。作者系统评估了跨四个关键生理截取点的传感模态：神经振荡、神经肌肉激活、关节运动学（超声/磁力计）和通过声学或射频传感的普适主动探测。关键地，本综述分析了从启发式信号处理到潜在语义对齐 (Latent Semantic Alignment) 的当前范式转变。

🧠 LLM Training

Robust Post-Training for Generative Recommenders: Why Exponential Reward-Weighted SFT Outperforms RLHF

理论证明指数奖励加权 SFT 在推荐系统后训练中优于 RLHF，免疫奖励黑客

链接: arXiv
摘要: 针对生成式推荐系统的后训练对齐问题，指出 RLHF 因噪声用户反馈导致奖励黑客、DPO 需要不可获得的成对偏好数据等局限。识别出指数奖励加权 SFT (w = exp(r/λ)) 的独特优势：直接优化观测奖励而无需学习奖励模型，天然免疫奖励黑客。证明了首个在噪声奖励下的策略改进保证，差距仅与目录大小呈对数关系增长。温度 λ 显式控制鲁棒性-改进权衡。

📄 Abstract 中文翻译

本文研究通过后训练将生成式推荐系统与用户偏好对齐的问题。现有后训练方法存在局限：RLHF 方法因噪声用户反馈和不可靠的奖励模型而导致奖励黑客 (reward hacking)；离线 RL 替代方案需要不可获得的倾向分数 (propensity scores)；在线交互不可行。作者识别出指数奖励加权 SFT（权重 w = exp(r/λ)）独特适用于此场景，并提供了理论和实证基础来解释原因。通过直接优化观测奖励而无需查询学习的奖励模型，该方法免疫奖励黑客，不需要倾向分数，且完全离线。他们证明了首个在噪声奖励下的策略改进保证，表明差距仅与目录大小呈对数关系增长，并证明温度 λ 显式控制鲁棒性-改进权衡。在三个开源和一个专有数据集上的实验证实，指数奖励加权方法简单、可扩展，且始终优于基于 RLHF 的替代方案。

🤖 AI Agents

Language Model Teams as Distributed Systems

提出用分布式系统理论分析 LLM 多智能体团队，发现经典分布式系统挑战在 LLM 团队中复现

链接: arXiv
摘要: 提出以分布式系统作为创建和评估 LLM 团队的原则性基础框架。发现 LLM 团队在预分配任务的简化设置中展现出类似经典分布式计算的扩展效率增益，而在自协调去中心化团队中，则面临一致性冲突、架构权衡、通信开销和落后者等经典分布式系统挑战。

📄 Abstract 中文翻译

大型语言模型 (LLMs) 的能力日益增强，引发了对 LLM 团队的广泛兴趣。然而，尽管 LLM 团队在规模化部署中不断增加，我们仍缺乏一个有原则的框架来回答关键问题，例如团队何时有用、应使用多少智能体、结构如何影响性能，以及团队是否优于单个智能体。我们提出使用分布式系统作为创建和评估 LLM 团队的有原则基础，而非通过试错来设计和测试这些可能性。

AI Planning Framework for LLM-Based Web Agents

将 Web Agent 架构映射到经典规划范式（BFS/Best-First/DFS），提供原则性故障诊断

链接: arXiv
摘要: 将 Web 任务形式化为顺序决策过程，引入将现代 agent 架构映射到传统规划范式的分类学：逐步 agent 对应 BFS、树搜索 agent 对应 Best-First 树搜索、完整规划 agent 对应 DFS。该框架允许对上下文漂移和不连贯任务分解等系统故障进行原则性诊断。

📄 Abstract 中文翻译

开发用于 Web 任务的自主智能体是 AI 的核心挑战。虽然大型语言模型 (LLM) 智能体可以解释复杂的用户请求，但它们往往作为黑盒运行，难以诊断为何失败或如何规划。本文通过将 Web 任务形式化为顺序决策过程来弥补这一差距。作者引入了一种分类学，将现代智能体架构映射到传统规划范式：逐步 (Step-by-Step) 智能体对应广度优先搜索 (BFS)，树搜索 (Tree Search) 智能体对应最佳优先树搜索 (Best-First Tree Search)，完整规划 (Full-Plan-in-Advance) 智能体对应深度优先搜索 (DFS)。该框架允许对上下文漂移和不连贯任务分解等系统故障进行原则性诊断。

NERFIFY: A Multi-Agent Framework for Turning NeRF Papers into Code

多智能体框架自动将 NeRF 论文转化为可运行代码，被 CVPR 2026 接收

链接: arXiv
摘要: 多智能体框架可靠地将 NeRF 研究论文转换为可训练的 Nerfstudio 插件。创新点包括：上下文无关文法约束 LLM 合成、图思维代码合成以拓扑依赖顺序生成仓库、组合式引用恢复。被 CVPR 2026 接收。

📄 Abstract 中文翻译

NERFIFY 是一个多智能体框架，可靠地将 NeRF 研究论文转换为可训练的 Nerfstudio 插件，与通用的论文到代码方法和 GPT-5 等前沿模型通常无法生成可运行代码形成对比。该论文通过以下创新实现领域特定的可执行性：上下文无关文法 (Context-free Grammar, CFG) 约束 LLM 合成；图思维 (Graph-of-Thought) 代码合成，由专门的多文件智能体以拓扑依赖顺序生成代码仓库；以及组合式引用恢复 (compositional citation recovery)，自动检索并集成参考图中的组件。已被 CVPR 2026 接收。

Agentic Hives: Equilibrium, Indeterminacy, and Endogenous Cycles in Self-Organizing Multi-Agent Systems

自组织多智能体系统中的均衡、不确定性和内生周期

链接: arXiv
摘要: 提出 Agentic Hive 框架，其中可变规模的自主微智能体群体经历出生、复制、专化和死亡的人口动态。智能体家族扮演生产部门的角色，算力和内存作为生产要素，编排器同时担任瓦尔拉斯拍卖师和全局工作空间。

📄 Abstract 中文翻译

Agentic Hive 是一个框架，其中可变规模的自主微智能体——每个都配备沙盒执行环境和语言模型访问权限——经历人口动态：出生、复制、专化和死亡。智能体家族扮演生产部门的角色，计算和内存扮演生产要素的角色，编排器 (orchestrator) 同时担任瓦尔拉斯拍卖师 (Walrasian auctioneer) 和全局工作空间 (Global Workspace) 的双重角色。

Exploring Plan Space through Conversation: An Agentic Framework for LLM-Mediated Explanations in Planning

通过对话探索规划空间的多智能体 LLM 框架

链接: arXiv
摘要: 提出与解释框架无关的多智能体 LLM 架构，支持用户和上下文相关的交互式解释。目标是促进迭代推理和引出过程，人类根据其偏好和专业知识引导 AI 规划器。

📄 Abstract 中文翻译

本文提出一种多智能体大型语言模型 (LLM) 架构，该架构与解释框架无关，支持用户和上下文相关的交互式解释。目标是促进一个迭代推理和引出过程，其中人类的角色是根据其偏好和专业知识引导 AI 规划器，解释用于增进对潜在解决方案的理解并提升对系统的信任。

BioProAgent: Neuro-Symbolic Grounding for Constrained Scientific Planning

神经符号框架解决自主科学发现中的执行鸿沟

链接: arXiv
摘要: BioProAgent 是一个神经符号框架，通过将概率性 LLM 推理锚定在确定性有限状态机中，为不可逆的湿实验室环境强制执行"设计-验证-纠正"工作流。在扩展的 BioProBench 上达到 SOTA 性能，展示了传统智能体失败之处的自主自我纠正能力。

📄 Abstract 中文翻译

BioProAgent 是一个神经符号框架，旨在解决自主科学发现中的关键执行鸿沟。通过将概率性 LLM 推理锚定在确定性有限状态机 (Finite State Machine) 中，BioProAgent 为不可逆的湿实验室环境强制执行"设计-验证-纠正" (Design-Verify-Rectify) 工作流。在扩展的 BioProBench 上的评估表明，BioProAgent 达到了最先进的性能，并展示了在传统智能体失败之处的稳健自主自我纠正能力。

LTX-2: Open-Source Audiovisual Diffusion Model

开源视听扩散模型，双流 Transformer 架构实现视频和音频同步生成

链接: HuggingFace Trending
摘要: LTX-2 来自 MIT LAMM，是一个开源视听扩散模型，使用双流 Transformer 架构配合跨模态注意力和无分类器引导 (classifier-free guidance)，实现同步的视频和音频内容生成。

📄 Abstract 中文翻译

（原文 abstract 未获取到）

Cheers: Unified Multimodal Model for Visual Understanding and Generation

统一多模态模型，解耦视觉细节与语义表征

链接: HuggingFace Trending
摘要: Cheers 是一个统一的多模态模型，使用视觉分词器、基于 LLM 的 Transformer 和级联 flow matching 头来解耦视觉细节与语义表征，实现视觉理解和生成任务的高效联合优化。

📄 Abstract 中文翻译

（原文 abstract 未获取到）

Generated on 2026-03-18 | Sources: arXiv, HuggingFace, Papers With Code (via WebSearch) 注：由于 API 端点被网络代理限制，本期日报通过 WebSearch 间接收集数据，可能遗漏部分论文。

今日概览

重点推荐 ⭐

🔊 Audio LLM

🧠 LLM Training

🤖 AI Agents

📈 Trending 补充（非昨日但新发现）