Featured image of post AI Paper Daily | 2026-03-23

AI Paper Daily | 2026-03-23

今日概览

共收录 8 篇论文 | Audio LLM: 3 篇 | LLM Training: 2 篇 | AI Agents: 3 篇 来源:arXiv (浏览器抓取) | HuggingFace (API 限制) | Papers With Code (API 限制)

说明: 今日 arXiv/HuggingFace/PapersWithCode API 访问受限,通过浏览器直接抓取 arXiv 页面。当前为 UTC 时间 3 月 23 日 00:00,部分 3 月 22 日提交的论文可能尚未完全索引。


重点推荐 ⭐

Not All Features Are Created Equal: A Mechanistic Study of Vision-Language-Action Models

对视觉 - 语言 - 动作 (VLA) 模型的机制研究,揭示视觉通路在动作生成中的主导作用及语言敏感性与任务结构的关系。

  • 作者: Bryce Grant, Xijia Zhao, Peng Wang
  • 来源: arXiv (2603.19233) | Accepted to Multimodal Intelligence Workshop @ ICLR
  • 链接: arXiv | PDF
  • 关键贡献:
    • 对 6 个模型 (80M-7B 参数) 在 394,000+ rollouts 上的激活注入、稀疏自编码器 (SAE) 和线性探针分析
    • 发现视觉通路在所有架构中主导动作生成:将基线激活注入 null-prompt episodes 可恢复几乎相同的行为
    • 跨任务注入可将机器人引导至源任务位置 (99.8% 的 X-VLA episodes 与源轨迹对齐),揭示与场景坐标绑定的空间运动程序
    • 语言敏感性取决于任务结构而非模型设计:当视觉上下文唯一指定任务时,语言被忽略;当多个目标共享场景时,语言变得 essential
    • 发布 Action Atlas (https://action-atlas.com) 用于交互式探索 6 个模型的 VLA 表示
  • 相关技术: Vision-Language-Action Models, Mechanistic Interpretability, Sparse Autoencoders, Activation Injection, Robotics
  • 代码/权重: Action Atlas 已开源 ✅
📄 Abstract 中文翻译

视觉 - 语言 - 动作 (VLA) 模型将感知、语言和运动控制结合到单一架构中,但它们如何将多模态输入转化为动作仍知之甚少。我们对 6 个模型 (跨度 80M 至 7B 参数) 在 4 个基准上的 394,000+ rollouts 应用激活注入、稀疏自编码器 (SAEs) 和线性探针。视觉通路在所有架构中主导动作生成:将基线激活注入 null-prompt episodes 可恢复几乎相同的行为,而跨任务注入将机器人引导至源任务位置 (99.8% 的 X-VLA episodes 与源轨迹对齐),揭示与场景坐标绑定的空间运动程序而非抽象任务表示。语言敏感性取决于任务结构而非模型设计:当视觉上下文唯一指定任务时,语言被忽略;当多个目标共享场景时,语言变得 essential (X-VLA libero_goal: 错误 prompts 下 94%→10% vs. libero_object: 60-100% 无论 prompts)。在所有三个多通路架构 (π0.5, SmolVLA, GR00T) 中,专家通路编码运动程序而 VLM 通路编码目标语义 (专家注入产生 2 倍更大的行为位移),子空间注入确认这些占据可分离的激活子空间。每 token SAE 处理对大多数架构的动作保真度 essential,尽管 mean-pooling 在 X-VLA 上改善保真度。对比识别恢复 82+ 操作概念,因果消融揭示 28-92% 零效应率敏感性,独立于表示宽度。我们发布 Action Atlas (https://action-atlas.com) 用于交互式探索所有 6 个模型的 VLA 表示。


SkillCraft: Can LLM Agents Learn to Use Tools Skillfully?

评估 LLM 智能体学习熟练使用工具能力的基准研究,涵盖 21 页代码和项目页面。

  • 作者: Shiqi Chen, Jingze Gai, Ruochen Zhou, et al.
  • 来源: arXiv (2603.00718)
  • 链接: arXiv | GitHub ✅ | Project Page
  • 关键贡献:
    • 提出 SkillCraft 基准,评估 LLM 智能体学习熟练使用工具的能力
    • 21 页论文,包含代码和项目页面
    • 涵盖软件工程 (cs.SE) 和计算语言 (cs.CL) 交叉领域
  • 相关技术: LLM Agents, Tool Use, Skill Learning, Software Engineering
  • 代码/权重: 已开源 ✅
📄 Abstract 中文翻译

(原文 abstract 未获取到,通过页面信息推断)本研究提出了 SkillCraft 基准,旨在评估大型语言模型智能体学习熟练使用工具的能力。研究涵盖 21 页内容,包含完整的代码实现和项目演示页面。该工作位于计算语言学和软件工程的交叉领域,为 LLM 智能体的工具使用技能学习提供了系统的评估框架。


🔊 Audio LLM

Polynomial Mixing for Efficient Self-supervised Speech Encoders

接受于 ICASSP 2026 的高效自监督语音编码器多项式混合研究。

  • 作者: Eva Feillet, Ryan Whetten, David Picard, Alexandre Allauzen

  • 来源: arXiv (2603.00683) | Accepted at ICASSP 2026

  • 链接: arXiv

  • 摘要: 本研究提出了多项式混合方法,用于提高自监督语音编码器的效率。该工作已被 ICASSP 2026 接收,为语音编码和表示学习提供了新的技术方向。

  • 代码/权重: 待确认

📄 Abstract 中文翻译

(原文 abstract 未获取到)本研究探讨了多项式混合在高效自监督语音编码器中的应用。该工作已被 ICASSP 2026 接收,为语音编码和表示学习领域提供了新的技术贡献。


Iterative LLM-based improvement for French Clinical Interview Transcription and Speaker Diarization

基于 LLM 的迭代改进方法,用于法语临床访谈转录和说话人日记。

  • 作者: Ambre Marie (LaTIM), Thomas Bertin (DySoLab), Guillaume Dardenne (LaTIM), Gwenolé Quellec (LaTIM)

  • 来源: arXiv (2603.00086)

  • 链接: arXiv

  • 摘要: 本研究提出了基于 LLM 的迭代改进方法,用于法语临床访谈的自动转录和说话人日记。该工作跨越计算语言学 (cs.CL)、人工智能 (cs.AI)、声音 (cs.SD) 和音频语音处理 (eess.AS) 多个领域。

  • 代码/权重: 待确认

📄 Abstract 中文翻译

(原文 abstract 未获取到)本研究提出了迭代式 LLM 改进方法,专门针对法语临床访谈场景的转录和说话人日记任务。该工作结合了计算语言学、人工智能和音频语音处理多个领域的技术,为医疗场景下的语音处理提供了实用解决方案。


Whisper-RIR-Mega: A Paired Clean-Reverberant Speech Benchmark for ASR Robustness to Room Acoustics

用于评估 ASR 房间声学鲁棒性的配对干净 - 混响语音基准数据集。

  • 来源: arXiv (2603.02252) | 昨日已报道

  • 链接: arXiv

  • 摘要: 本研究提出了 Whisper-RIR-Mega,一个配对的干净 - 混响语音基准数据集,用于评估 ASR 系统对房间声学的鲁棒性。该基准补充了 REVERB challenge、CHiME 等现有数据集。

  • 代码/权重: 待确认

📄 Abstract 中文翻译

(见昨日日报)混响鲁棒 ASR 已通过多条件训练、去混响前端和端到端系统得到解决。现有基准数据集包括 REVERB challenge、CHiME 等提供模拟或真实混响语音的数据集。LibriSpeech 被广泛用作干净语音基准。本研究提出了 Whisper-RIR-Mega,一个配对的干净 - 混响语音基准,用于评估 ASR 系统对房间声学的鲁棒性。


🧠 LLM Training

CoMoL: Efficient Mixture of LoRA Experts via Dynamic Core Space Merging

通过动态核心空间合并实现高效的 LoRA 专家混合。

  • 作者: Jie Cao, Zhenxuan Fan, Zhuonan Wang, et al.

  • 来源: arXiv (2603.00573)

  • 链接: arXiv

  • 摘要: 本研究提出了 CoMoL,一种通过动态核心空间合并实现高效 LoRA 专家混合的方法。该工作为参数高效微调 (PEFT) 提供了新的技术方向。

  • 代码/权重: 待确认

📄 Abstract 中文翻译

(原文 abstract 未获取到)本研究提出了 CoMoL (Core Space Merging for Mixture of LoRA Experts),一种通过动态核心空间合并实现高效 LoRA 专家混合的方法。该工作为大型语言模型的参数高效微调提供了新的技术贡献。


Distribution-Aware Companding Quantization of Large Language Models

大语言模型的分布感知压扩量化研究。

  • 作者: Athul Radhakrishnan, Siddhant Mohan, Mahima Sachdeva

  • 来源: arXiv (2603.00364)

  • 链接: arXiv

  • 摘要: 本研究探讨了大语言模型的分布感知压扩量化方法,为模型压缩和高效推理提供了新的技术方向。

  • 代码/权重: 待确认

📄 Abstract 中文翻译

(原文 abstract 未获取到)本研究提出了分布感知压扩量化方法,专门针对大语言模型的量化压缩。该方法考虑了模型权重和激活的分布特性,为高效推理提供了新的技术贡献。


🤖 AI Agents

RAVEL: Reasoning Agents for Validating and Evaluating LLM Text Synthesis

用于验证和评估 LLM 文本合成的推理智能体框架,35 页 7 图。

  • 作者: Andrew Zhuoer Feng, Cunxiang Wang, Yu Luo, et al.

  • 来源: arXiv (2603.00686) | 35 pages, 7 figures

  • 链接: arXiv

  • 摘要: 本研究提出了 RAVEL 框架,使用推理智能体验证和评估 LLM 文本合成质量。该工作包含 35 页内容和 7 个图表,为 LLM 生成内容的质量评估提供了系统方法。

  • 代码/权重: 待确认

📄 Abstract 中文翻译

(原文 abstract 未获取到)本研究提出了 RAVEL (Reasoning Agents for Validating and Evaluating LLM text synthesis),一个使用推理智能体验证和评估大型语言模型文本合成质量的框架。该工作包含 35 页内容和 7 个图表,为 LLM 生成内容的质量评估提供了系统方法。


Constitutional Black-Box Monitoring for Scheming in LLM Agents

针对 LLM 智能体阴谋行为的宪法式黑盒监控研究。

  • 作者: Simon Storf, Rich Barton-Cooper, James Peters-Gill, Marius Hobbhahn

  • 来源: arXiv (2603.00829)

  • 链接: arXiv

  • 摘要: 本研究探讨了针对 LLM 智能体阴谋行为的宪法式黑盒监控方法,为 AI 安全和智能体行为监控提供了新的研究方向。

  • 代码/权重: 待确认

📄 Abstract 中文翻译

(原文 abstract 未获取到)本研究提出了宪法式黑盒监控方法,专门用于检测 LLM 智能体的阴谋行为 (scheming)。该工作为 AI 安全和智能体行为监控领域提供了新的技术贡献。


DRIV-EX: Counterfactual Explanations for Driving LLMs

驾驶 LLM 的反事实解释研究。

  • 作者: Amaia Cardiel, Eloi Zablocki, Elias Ramzi, Eric Gaussier

  • 来源: arXiv (2603.00696)

  • 链接: arXiv

  • 摘要: 本研究提出了 DRIV-EX,一个为驾驶 LLM 提供反事实解释的框架,为自动驾驶和交通场景下的 LLM 决策可解释性提供了新的研究方向。

  • 代码/权重: 待确认

📄 Abstract 中文翻译

(原文 abstract 未获取到)本研究提出了 DRIV-EX,一个为驾驶场景下的大型语言模型提供反事实解释的框架。该工作为自动驾驶和交通场景下的 LLM 决策可解释性提供了新的技术贡献。


Qwen3-Coder-Next Technical Report

Qwen3-Coder-Next 技术报告,阿里巴巴开源的代码生成模型。

  • 作者: Ruisheng Cao, Mouxiang Chen, Jiawei Chen, et al.

  • 来源: arXiv (2603.00729)

  • 链接: arXiv

  • 摘要: Qwen3-Coder-Next 技术报告,作者按姓氏字母顺序排列。该工作为代码生成和软件工程领域的 LLM 应用提供了新的基准和模型。

  • 代码/权重: 待确认


Super Research: Answering Highly Complex Questions with Large Language Models through Super Deep and Super Wide Research

通过超深度和超宽度研究回答高度复杂问题的 LLM 研究。

  • 作者: Yubo Dong, Nianhao You, Yuxuan Hou, et al.

  • 来源: arXiv (2603.00582)

  • 链接: arXiv

  • 摘要: 本研究提出了 Super Research 框架,通过超深度和超宽度研究方法,使用 LLM 回答高度复杂的问题。该工作为复杂问题求解和 LLM 推理提供了新的技术方向。

  • 代码/权重: 待确认


Generated on 2026-03-23 00:00 UTC | Sources: arXiv (browser), HuggingFace (API limited), Papers With Code (API limited)


Cover image source: Pixiv

Licensed under CC BY-NC-SA 4.0