AI Paper Daily | 2026-04-03

今日概览

共收录 14 篇论文 | Audio LLM: 2篇 | LLM Training: 6篇 | AI Agents: 6篇来源: HuggingFace(14)

重点推荐 ⭐

Brainstacks: Cross-Domain Cognitive Capabilities via Frozen MoE-LoRA Stacks for Continual LLM Learning

模块化持续学习架构：用冻结的 MoE-LoRA 堆栈实现跨领域认知能力迁移，发现领域适配器编码的是可迁移的认知原语而非领域知识

作者: Mohammad R. Abu Ayyash
来源: HuggingFace Trending
链接: arXiv | PDF
关键贡献: 提出五组件模块化架构实现 LLM 的持续多领域微调，通过零空间投影实现零遗忘。核心发现是基于结果的路由器揭示了领域堆栈编码的是指令跟随、数值推理等可迁移认知原语——医学提示在 97% 的情况下路由到 chat+math 堆栈，即使这些堆栈从未见过医学数据。
相关技术: MoE-LoRA, QLoRA, null-space projection, residual boosting, continual learning
代码/权重: 未提及

📄 Abstract 中文翻译

我们提出 Brainstacks，一种用于大语言模型持续多领域微调的模块化架构，将领域专业知识打包为冻结的适配器堆栈，在推理时以加法方式组合在共享的冻结基础模型上。五个互锁组件：(1) MoE-LoRA，采用 Shazeer 风格的带噪 top-2 路由，覆盖所有七个 Transformer 投影层，使用 QLoRA 4-bit 量化和 rsLoRA 缩放；(2) 内循环执行残差提升，冻结已训练的堆栈并添加新堆栈；(3) 外循环按课程顺序依赖关系训练序列化的领域特定堆栈；(4) 通过随机化 SVD 的零空间投影，将新堆栈约束在与先前方向正交的子空间中，实现隔离条件下的零遗忘；(5) 基于结果的 Sigmoid 元路由器，在经验发现的领域组合目标上训练，选择性地加权堆栈以实现跨领域组合。两个边界实验：(6) 在随机初始化模型上的 PSN 预训练；(7) 每个领域的 RL (DPO/GRPO) 验证与 SFT 后对齐的兼容性。在 TinyLlama-1.1B（4 个领域，9 个堆栈）和 Gemma 3 12B IT（5 个领域，10 个堆栈）上验证，MoE-LoRA 比参数匹配的单 LoRA 收敛速度快 2.5 倍，残差提升突破了单堆栈的性能上限，路由系统恢复了被无门控堆栈累积破坏的生成质量。核心发现：基于结果的路由器发现领域堆栈编码的是可迁移的认知原语（指令跟随清晰度、数值推理、程序逻辑、思维链结构），而非领域特定知识——医学提示在 97% 的情况下路由到 chat+math 堆栈，尽管这些堆栈中没有任何医学数据。

Universal YOCO for Efficient Depth Scaling

YOCO 架构与递归计算的结合体：通过参数共享的 Universal Self-Decoder 实现高效深度扩展，保持恒定 KV 缓存和线性预填充

作者: Yutao Sun, Li Dong, Tianzhu Ye et al.
来源: HuggingFace Trending (11 upvotes)
链接: arXiv | PDF
关键贡献: 将 YOCO decoder-decoder 架构与递归计算结合，实现二者单独无法达到的协同效果。Universal Self-Decoder 通过参数共享执行多次迭代，同时将迭代过程限制在浅层高效注意力层中，在保持高效推理的同时提升表征深度。
相关技术: YOCO, recursive computation, parameter sharing, efficient attention, depth scaling
代码/权重: 未提及

📄 Abstract 中文翻译

测试时扩展（test-time scaling）的兴起显著提升了大语言模型（LLMs）的推理和智能体能力。然而，标准 Transformer 难以高效扩展推理时计算，因为传统循环策略存在高计算开销，且 KV 缓存随模型深度膨胀。我们提出 Universal YOCO (YOCO-U)，将 YOCO decoder-decoder 架构与递归计算相结合，实现了大于二者单独效果之和的协同效应。基于 YOCO 框架，YOCO-U 实现了一个 Universal Self-Decoder，通过参数共享执行多次迭代，同时将迭代过程限制在浅层、高效注意力层中。这种组合产生了 YOCO 或递归单独都无法实现的有利的能力-效率权衡。YOCO 架构提供恒定的全局 KV 缓存和线性预填充，而部分递归以有限的开销增强表征深度。YOCO-U 在保持高效推理的同时改善了 token 利用率和扩展行为。实验结果证实，YOCO-U 在通用和长上下文基准测试中保持高度竞争力，表明高效注意力架构与递归计算的结合是可扩展 LLM 的一个有前景的方向。

OmniVoice: Towards Omnilingual Zero-Shot Text-to-Speech with Diffusion Language Models

覆盖 600+ 语言的大规模多语言零样本 TTS，基于扩散语言模型的非自回归架构直接从文本映射到多码本声学 token

作者: Han Zhu, Lingxuan Ye, Wei Kang et al.
来源: HuggingFace Trending (2 upvotes)
链接: arXiv | PDF
关键贡献: 突破性地将 TTS 语言覆盖扩展到 600+ 种语言。采用新颖的离散非自回归架构直接从文本映射到多码本声学 token，避免了传统两阶段管道的性能瓶颈。全码本随机掩码策略和预训练 LLM 初始化是两个关键技术创新。
相关技术: diffusion language model, zero-shot TTS, multi-codebook acoustic tokens, full-codebook random masking, multilingual speech synthesis
代码/权重: 已开源 ✅ (https://github.com/k2-fsa/OmniVoice)

📄 Abstract 中文翻译

我们提出 OmniVoice，一个大规模多语言零样本文本转语音（TTS）模型，支持超过 600 种语言。其核心是一种新颖的基于扩散语言模型（Diffusion Language Model）的离散非自回归（NAR）架构。与传统离散 NAR 模型在复杂的两阶段（文本到语义到声学）管道中遭受性能瓶颈不同，OmniVoice 直接将文本映射到多码本声学 token。这种简化方法得益于两个关键技术创新：(1) 用于高效训练的全码本随机掩码策略，以及 (2) 从预训练 LLM 初始化以确保卓越的可理解性。通过利用完全从开源数据策划的 581k 小时多语言数据集，OmniVoice 实现了迄今为止最广泛的语言覆盖，并在中文、英文及多种多语言基准测试中达到了最先进的性能。我们的代码和预训练模型已公开发布。

HippoCamp: Benchmarking Contextual Agents on Personal Computers

面向个人电脑的上下文感知智能体基准：42.4GB 真实文件系统 + 581 个 QA 对，最强商业模型仅 48.3% 准确率

作者: Zhe Yang, Shulin Tian, Kairui Hu et al.
来源: HuggingFace Trending (16 upvotes)
链接: arXiv | PDF
关键贡献: 首个在设备级别文件系统上评估智能体的基准，包含 42.4GB 跨模态真实文件和 46.1K 密集标注的结构化轨迹。揭示了当前最先进模型在长视野检索和跨模态推理上的严重不足，多模态感知和证据定位是主要瓶颈。
相关技术: contextual agent, personal file management, multimodal retrieval, step-wise failure diagnosis, cross-modal reasoning
代码/权重: 未提及

📄 Abstract 中文翻译

我们提出 HippoCamp，一个旨在评估智能体在多模态文件管理方面能力的新基准。与现有专注于 Web 交互、工具使用或通用环境中软件自动化等任务的智能体基准不同，HippoCamp 在以用户为中心的环境中评估智能体，建模个人用户画像并在海量个人文件中搜索以进行上下文感知推理。我们的基准实例化了覆盖真实世界用户画像的设备级文件系统，涵盖多种模态，包含 42.4 GB 数据、超过 2K 个真实文件。基于原始文件，我们构建了 581 个 QA 对来评估智能体在搜索、证据感知和多步推理方面的能力。为便于细粒度分析，我们提供了 46.1K 个密集标注的结构化轨迹用于逐步故障诊断。我们在 HippoCamp 上评估了多种最先进的多模态大语言模型（MLLMs）和智能体方法。综合实验揭示了显著的性能差距：即使最先进的商业模型在用户画像分析中也仅达到 48.3% 的准确率，特别是在密集个人文件系统中的长视野检索和跨模态推理方面表现困难。此外，逐步故障诊断将多模态感知和证据定位确定为主要瓶颈。最终，HippoCamp 暴露了当前智能体在真实、以用户为中心的环境中的关键局限性，为开发下一代个人 AI 助手提供了坚实基础。

🔊 Audio LLM

OmniVoice: Towards Omnilingual Zero-Shot Text-to-Speech with Diffusion Language Models

（见重点推荐）

LongCat-AudioDiT: High-Fidelity Diffusion Text-to-Speech in the Waveform Latent Space

波形潜空间中的非自回归扩散 TTS，无需多阶段训练即达到 SOTA 零样本语音克隆性能

作者: Detai Xin, Shujie Hu, Chengzuo Yang et al.
来源: HuggingFace Trending
链接: arXiv | PDF
关键贡献: 创新性地在波形潜空间（而非 mel 频谱图）中直接操作，消除复合误差并大幅简化 TTS 管道。发现并修正了长期存在的训练-推理不匹配问题，用自适应投影引导替代传统的无分类器引导。3.5B 参数的最大变体在 Seed 基准上超越了 Seed-TTS。一个反直觉发现：Wav-VAE 更好的重建保真度不一定带来更好的 TTS 性能。
相关技术: waveform latent space, Wav-VAE, adaptive projection guidance, diffusion TTS, zero-shot voice cloning
代码/权重: 已开源 ✅

📄 Abstract 中文翻译

我们提出 LongCat-AudioDiT，一种新颖的非自回归扩散文本转语音（TTS）模型，达到了最先进（SOTA）性能。与依赖梅尔频谱图等中间声学表示的先前方法不同，LongCat-AudioDiT 的核心创新在于直接在波形潜空间（waveform latent space）中操作。这种方法有效减轻了复合误差，并大幅简化了 TTS 管道，只需一个波形变分自编码器（Wav-VAE）和一个扩散骨干网络。此外，我们对推理过程引入了两个关键改进：首先，我们识别并纠正了一个长期存在的训练-推理不匹配问题；其次，我们用自适应投影引导（adaptive projection guidance）替代传统的无分类器引导（classifier-free guidance）以提升生成质量。实验结果表明，尽管没有复杂的多阶段训练管道或高质量人工标注数据集，LongCat-AudioDiT 在 Seed 基准上实现了 SOTA 零样本语音克隆性能，同时保持了有竞争力的可理解性。具体来说，我们最大的变体 LongCat-AudioDiT-3.5B 超越了先前的 SOTA 模型（Seed-TTS），在 Seed-ZH 上将说话人相似度（SIM）分数从 0.809 提升到 0.818，在 Seed-Hard 上从 0.776 提升到 0.797。最后，通过全面的消融研究和系统分析，我们验证了所提模块的有效性。值得注意的是，我们研究了 Wav-VAE 与 TTS 骨干之间的相互作用，揭示了一个反直觉的发现：Wav-VAE 中更优的重建保真度不一定带来更好的整体 TTS 性能。代码和模型权重已发布以促进语音社区的进一步研究。

🧠 LLM Training

Brainstacks: Cross-Domain Cognitive Capabilities via Frozen MoE-LoRA Stacks for Continual LLM Learning

（见重点推荐）

Universal YOCO for Efficient Depth Scaling

（见重点推荐）

Reasoning Shift: How Context Silently Shortens LLM Reasoning

推理模型在不同上下文条件下会默默缩短推理链（最多 50%），自我验证和不确定性管理行为显著减少

作者: Gleb Rodionov
来源: HuggingFace Trending (22 upvotes)
链接: arXiv | PDF
关键贡献: 系统性地揭示了一个重要现象：推理模型在面对长无关上下文、多轮对话或作为子任务呈现时，会将推理链压缩最多 50%。细粒度分析表明这种压缩伴随着自我验证和反复检查行为的减少。对简单问题影响不大，但可能损害复杂任务的性能。
相关技术: reasoning trace compression, self-verification, test-time scaling, context sensitivity, exposure bias
代码/权重: 未提及

📄 Abstract 中文翻译

表现出测试时扩展行为（如扩展推理链和自我验证）的大语言模型（LLMs）在复杂的长期推理任务上展现了卓越的性能。然而，这些推理行为的鲁棒性仍未被充分探索。为了研究这一点，我们对多个推理模型在三种场景下进行了系统评估：(1) 问题附加了冗长、无关的上下文；(2) 包含独立任务的多轮对话设置；(3) 问题作为复杂任务中的子任务呈现。我们观察到一个有趣的现象：推理模型在不同上下文条件下，对同一问题倾向于产生比单独呈现时短得多（最多 50%）的推理链。更细粒度的分析揭示，这种压缩与自我验证和不确定性管理行为（如反复检查）的减少相关。虽然这种行为转变不会损害简单问题的性能，但可能影响更具挑战性任务的表现。我们希望我们的发现能引起对推理模型鲁棒性以及 LLM 和基于 LLM 的智能体的上下文管理问题的更多关注。

More Human, More Efficient: Aligning Annotations with Quantized SLMs

1.7B 参数的量化小模型在有限人工标注数据上微调后，标注一致性超过最强闭源 LLM

作者: Jiayu Wang, Junyoung Lee
来源: HuggingFace Trending (1 upvote)
链接: arXiv | PDF
关键贡献: 证明在有限人工标注数据上微调量化小语言模型（1.7B，4-bit）可以作为高度对齐的确定性评估器和标注器，Krippendorff’s α 比最佳闭源 LLM 提高 0.23 分。展示了任务特定对齐和高效量化微调可以作为闭源模型的优秀开源替代方案。
相关技术: quantized SLM, 4-bit fine-tuning, inter-annotator agreement, Krippendorff’s alpha, rubric-based evaluation
代码/权重: 已开源 ✅ (https://github.com/jylee-k/slm-judge)

📄 Abstract 中文翻译

随着大语言模型（LLM）能力的提升，对指数级增长的文本语料库进行高质量标注的需求已超出人工能力，导致 LLM 在自动评估和标注中被广泛采用。然而，专有 LLM 通常表现出偏离人类专家共识的系统性偏差，缺乏可复现性，并引发数据隐私问题。我们的工作考察了在有限人工标注数据上微调 1.7B 参数的量化小语言模型（Quantized Small Language Model），使其作为高度对齐、确定性评估器和标注器的可行性。通过实现自定义的多维评分框架以及简单的数据增强和正则化技术，所提方法实现了比最佳最先进闭源 LLM 更高的标注者间一致性（Krippendorff’s α 提高 0.23 分）。我们还在一个单独的情感分类任务上验证了所提训练管道的泛化能力。结果表明，任务特定对齐和高效的 4-bit 量化微调为使用闭源模型进行评估和标注提供了优秀的开源替代方案。我们的微调方法已公开发布。

A Survey of On-Policy Distillation for Large Language Models

首篇 LLM 在策略蒸馏综述：统一 f-散度框架，从反馈信号、教师访问和损失粒度三个维度系统梳理

作者: Mingyang Song, Mao Zheng
来源: HuggingFace Trending (4 upvotes)
链接: arXiv | PDF
关键贡献: 首次对 LLM 在策略蒸馏（On-Policy Distillation）进行全面综述，引入统一的 f-散度框架，并从反馈信号（logit/outcome/self-play）、教师访问（白盒/黑盒/无教师）和损失粒度（token/sequence/混合）三个正交维度组织文献。讨论了蒸馏缩放定律、不确定性感知反馈和智能体级蒸馏等开放问题。
相关技术: on-policy distillation, f-divergence, exposure bias, imitation learning, distillation scaling laws
代码/权重: 未提及

📄 Abstract 中文翻译

知识蒸馏已成为将推理和领域专业知识从前沿大语言模型（LLMs）转移到更小的可部署学生模型的主要机制。然而，主导范式仍然是离策略的（off-policy）：学生在静态的教师生成数据上训练，在学习过程中从未遇到自己的错误。这种训练-测试不匹配是暴露偏差（exposure bias）的一个实例，导致预测错误在推理时以自回归方式复合。在策略蒸馏（On-Policy Distillation, OPD）通过让学生生成自己的轨迹并在这些自生成输出上接收教师反馈来解决这个问题，将蒸馏建立在交互式模仿学习理论的基础上。尽管快速发展涵盖了散度最小化、奖励引导学习和自博弈，OPD 文献仍然碎片化，缺乏统一的处理。本综述提供了 LLM OPD 的首次全面概述。我们引入了在策略样本上的统一 f-散度框架，并沿三个正交维度组织研究格局：反馈信号（基于 logit、基于结果或自博弈）、教师访问（白盒、黑盒或无教师）和损失粒度（token 级、序列级或混合）。我们系统分析了代表性方法，审视了工业部署，并识别了开放问题，包括蒸馏缩放定律、不确定性感知反馈和智能体级蒸馏。

Embarrassingly Simple Self-Distillation Improves Code Generation

简单到尴尬的自蒸馏：无需验证器、教师模型或 RL，仅用模型自身采样输出微调就能大幅提升代码生成

作者: Ruixiang Zhang, Richard He Bai, Huangjie Zheng et al.
来源: HuggingFace Trending (9 upvotes)
链接: arXiv | PDF
关键贡献: 证明无需验证器、教师模型或强化学习，仅从模型自身采样并用标准 SFT 微调即可显著提升代码生成能力（Qwen3-30B 在 LiveCodeBench v6 上从 42.4% 提升到 55.3%）。机制分析揭示 SSD 以上下文相关方式重塑 token 分布，在需要精确性时抑制干扰尾部，在需要探索时保留有用多样性。
相关技术: self-distillation, code generation, precision-exploration conflict, token distribution reshaping, LiveCodeBench
代码/权重: 未提及

📄 Abstract 中文翻译

大语言模型（LLM）能否仅使用自身的原始输出来改善代码生成，而无需验证器、教师模型或强化学习？我们用简单自蒸馏（Simple Self-Distillation, SSD）给出了肯定的答案：使用特定温度和截断配置从模型中采样解决方案，然后用标准监督微调在这些样本上进行微调。SSD 将 Qwen3-30B-Instruct 在 LiveCodeBench v6 上的 pass@1 从 42.4% 提升到 55.3%，增益集中在更难的问题上，并且在 Qwen 和 Llama 模型的 4B、8B 和 30B 规模上都能泛化，包括 instruct 和 thinking 变体。为了理解如此简单的方法为何有效，我们将这些增益追溯到 LLM 解码中的精确性-探索冲突，并展示 SSD 以上下文相关的方式重塑 token 分布，在需要精确性时抑制干扰尾部，在需要探索时保留有用的多样性。总之，SSD 为改善 LLM 代码生成提供了一个互补的后训练方向。

🤖 AI Agents

HippoCamp: Benchmarking Contextual Agents on Personal Computers

（见重点推荐）

MiroEval: Benchmarking Multimodal Deep Research Agents in Process and Outcome

首个同时评估深度研究系统过程与结果的基准，发现过程质量可靠预测整体结果

作者: Fangda Ye, Yuxin Hu, Pengxiang Zhu et al.
来源: HuggingFace Trending (52 upvotes)
链接: arXiv | PDF
关键贡献: 提出包含 100 个任务的基准和三维评估框架（自适应综合质量、智能体事实性验证、过程审计），发现过程质量是整体结果的可靠预测器，能揭示输出级指标无法发现的弱点。多模态任务让大多数系统得分下降 3-10 分。
相关技术: deep research evaluation, process-centric evaluation, agentic factuality verification, multimodal benchmark, dual-path pipeline
代码/权重: 未提及

📄 Abstract 中文翻译

深度研究系统的近期进展令人印象深刻，但评估仍然落后于真实用户需求。现有基准主要使用固定评分标准评估最终报告，未能评估底层研究过程。大多数基准还提供有限的多模态覆盖，依赖不反映真实查询复杂性的合成任务，且无法随知识演进而更新。为解决这些差距，我们引入 MiroEval，一个针对深度研究系统的基准和评估框架。该基准包含 100 个任务（70 个纯文本，30 个多模态），全部基于真实用户需求，通过支持定期更新的双路径管道构建，实现活的、不断演进的评估设置。所提评估套件从三个互补维度评估深度研究系统：使用任务特定评分标准的自适应综合质量评估、通过对 Web 源和多模态附件的主动检索和推理进行的智能体事实性验证，以及审计系统在调查过程中如何搜索、推理和优化的过程中心评估。对 13 个系统的评估得出三个主要发现：三个评估维度捕获了系统能力的互补方面，每个维度揭示了不同系统的独特优势和劣势；过程质量作为整体结果的可靠预测器，同时揭示了输出级指标无法发现的弱点；多模态任务构成了显著更大的挑战，大多数系统下降 3 到 10 分。MiroThinker 系列实现了最平衡的性能，MiroThinker-H1 在两种设置中总体排名最高。人工验证和鲁棒性结果确认了基准和评估框架的可靠性。MiroEval 为下一代深度研究智能体提供了全面的诊断工具。

AgentWatcher: A Rule-based Prompt Injection Monitor

基于规则的提示注入检测器：通过因果归因定位关键上下文段，结合显式规则推理实现可解释检测

作者: Yanting Wang, Wei Zou, Runpeng Geng et al.
来源: HuggingFace Trending
链接: arXiv | PDF
关键贡献: 解决了现有提示注入检测方法的两大局限：上下文长度增加时效果大幅下降，以及缺乏显式规则导致决策不透明。通过因果归因将检测聚焦于少量关键上下文段，并定义显式规则集使检测决策可解释。
相关技术: prompt injection detection, causal attribution, rule-based monitoring, tool-use agents, explainable security
代码/权重: 已开源 ✅ (https://github.com/wang-yanting/AgentWatcher)

📄 Abstract 中文翻译

大语言模型（LLMs）及其应用（如智能体）极易受到提示注入攻击。最先进的提示注入检测方法存在以下局限：(1) 随着上下文长度增加，其有效性显著下降；(2) 缺乏定义什么构成提示注入的显式规则，导致检测决策隐式、不透明且难以推理。在这项工作中，我们提出 AgentWatcher 来解决上述两个局限。针对第一个局限，AgentWatcher 将 LLM 的输出（如智能体的动作）归因到一小组因果上有影响力的上下文段。通过将检测聚焦于相对短的文本，AgentWatcher 可以扩展到长上下文。针对第二个局限，我们定义了一组规则，明确什么构成和不构成提示注入，并使用监控 LLM 基于归因文本对这些规则进行推理，使检测决策更具可解释性。我们在工具使用智能体基准和长上下文理解数据集上进行了全面评估。实验结果表明，AgentWatcher 能够有效检测提示注入并在无攻击时保持效用。

首个系统研究长视野 Web 任务中智能体可中断性的工作，引入三种中断类型和 InterruptBench 基准

作者: Henry Peng Zou, Chunyu Miao, Wei-Chieh Huang et al.
来源: HuggingFace Trending (1 upvote)
链接: arXiv | PDF
关键贡献: 形式化定义了三种现实中断类型（添加、修改、撤回），并引入基于 WebArena-Lite 的 InterruptBench 基准。评估了六种强 LLM 在单轮和多轮中断设置下的表现，发现在长视野智能体任务中有效且高效地处理用户中断对最强 LLM 仍具挑战性。
相关技术: interruptible agents, web navigation, WebArena, intent revision, long-horizon planning
代码/权重: 已开源 ✅ (https://github.com/HenryPengZou/InterruptBench)

📄 Abstract 中文翻译

随着 LLM 智能体从短期、静态的问题求解转向在动态环境中执行复杂的长视野任务，处理用户中断的能力——如在任务执行中途添加需求或修改目标——正成为现实部署的核心要求。然而，现有基准大多假设智能体行为不会被中断，或仅在短期、无约束的语言任务中研究中断。在本文中，我们首次系统研究了长视野、环境约束的 Web 导航任务中的可中断智能体，其中动作会引起持久的状态变化。我们形式化了三种现实中断类型，包括添加、修改和撤回，并引入 InterruptBench，一个源自 WebArena-Lite 的基准，在严格语义约束下合成高质量中断场景。使用统一的中断模拟框架，我们评估了六种强 LLM 骨干在单轮和多轮中断设置下的表现，分析了它们在适应更新意图时的有效性和从任务中途变更中恢复的效率。我们的结果表明，在长视野智能体任务中有效且高效地处理用户中断对强大的大规模 LLM 仍然具有挑战性。

SciVisAgentBench: A Benchmark for Evaluating Scientific Data Analysis and Visualization Agents

科学可视化智能体综合基准：108 个专家构建的案例 + 多模态结果中心评估管道

作者: Kuangshi Ai, Haichao Miao, Kaiyuan Tang et al.
来源: HuggingFace Trending (1 upvote)
链接: arXiv | PDF
关键贡献: 首个可扩展的科学可视化智能体基准，覆盖四个维度的结构化分类法（应用领域、数据类型、复杂度级别、可视化操作）。多模态评估管道结合 LLM 评判、图像指标、代码检查器和规则验证器。12 位专家参与的有效性研究验证了人类与 LLM 评判的一致性。
相关技术: scientific visualization, agentic evaluation, multimodal outcome metrics, code generation agents, domain-specific benchmarking
代码/权重: 未提及

📄 Abstract 中文翻译

大语言模型（LLMs）的近期进展使得能够将自然语言意图转化为可执行科学可视化（SciVis）任务的智能体系统成为可能。尽管进展迅速，社区仍缺乏一个有原则的、可复现的基准来评估这些新兴的 SciVis 智能体在现实的多步分析场景中的表现。我们提出 SciVisAgentBench，一个用于评估科学数据分析和可视化智能体的全面且可扩展的基准。我们的基准基于覆盖四个维度的结构化分类法：应用领域、数据类型、复杂度级别和可视化操作。目前包含 108 个专家构建的案例，覆盖多样的 SciVis 场景。为实现可靠评估，我们引入了一个多模态结果中心评估管道，结合了基于 LLM 的评判与确定性评估器，包括基于图像的指标、代码检查器、基于规则的验证器和案例特定评估器。我们还进行了一项有 12 位 SciVis 专家参与的有效性研究，以检验人类和 LLM 评判之间的一致性。使用该框架，我们评估了代表性的 SciVis 智能体和通用编码智能体以建立初始基线并揭示能力差距。SciVisAgentBench 被设计为一个活的基准，支持系统比较、诊断失败模式并推动智能体 SciVis 的进展。

Paper Reconstruction Evaluation: Evaluating Presentation and Hallucination in AI-written Papers

首个系统评估 AI 写论文质量和风险的框架，揭示 ClaudeCode 和 Codex 在表现力与幻觉之间的清晰权衡

作者: Atsuyuki Miyai, Mashiro Toyooka, Zaiying Zhao et al.
来源: HuggingFace Trending (6 upvotes)
链接: arXiv | PDF
关键贡献: 提出 PaperRecon 评估框架，将 AI 写论文的评估解耦为表现力和幻觉两个正交维度。基于 51 篇 2025 年后顶会论文的 PaperWrite-Bench 揭示了清晰的权衡：ClaudeCode 表现力更高但平均每篇论文超过 10 个幻觉，Codex 幻觉更少但表现力较低。
相关技术: paper reconstruction, hallucination evaluation, coding agents, rubric-based assessment, agentic factuality
代码/权重: 未提及

📄 Abstract 中文翻译

本文介绍了首个用于量化现代编码智能体所写论文的质量和风险的系统评估框架。虽然 AI 驱动的论文写作已成为日益增长的关注话题，但对 AI 所写论文的质量和潜在风险的严格评估仍然有限，对其可靠性的统一理解仍然缺乏。我们引入论文重建评估（PaperRecon），一个评估框架，其中从现有论文创建概述（overview.md），然后智能体基于概述和最少的额外资源生成完整论文，随后将结果与原始论文进行比较。PaperRecon 将 AI 所写论文的评估解耦为两个正交维度：表现力（Presentation）和幻觉（Hallucination），其中表现力使用评分标准评估，幻觉通过基于原始论文源的智能体评估进行评估。为进行评估，我们引入 PaperWrite-Bench，一个包含 51 篇来自 2025 年后发表的顶级会议的跨领域论文的基准。我们的实验揭示了一个清晰的权衡：虽然 ClaudeCode 和 Codex 都随着模型进步而改善，但 ClaudeCode 以平均每篇论文超过 10 个幻觉的代价实现了更高的表现力质量，而 Codex 产生更少的幻觉但表现力较低。这项工作迈出了建立 AI 驱动论文写作评估框架和改善研究社区对其风险理解的第一步。

Generated on 2026-04-03 00:00 UTC | Sources: HuggingFace