AI Paper Daily | 2026-04-30

今日概览

重点推荐 ⭐

Recursive Multi-Agent Systems

将递归计算从单个模型扩展到多智能体系统，用递归协作实现更深推理

作者: Xiyuan Yang et al.
来源: HuggingFace Trending (123 upvotes)
链接: arXiv | PDF
关键贡献: 提出RecursiveMAS框架，通过RecursiveLink模块将异构Agent连接为协作环路，实现跨Agent隐状态传递。内-外循环学习算法实现递归训练的全系统协同优化，在9个基准上平均准确率提升8.3%，推理加速1.2-2.4倍，token用量降低34.6%-75.6%。
相关技术: recursive latent computation, multi-agent collaboration loop, gradient-based credit assignment, inner-outer loop optimization
代码/权重: 已开源 ✅

📄 Abstract 中文翻译

递归或循环语言模型最近作为一种新的缩放轴出现，通过迭代优化同一模型在隐状态上的计算来深化推理。我们将这种缩放原则从单个模型扩展到多智能体系统，并追问：智能体协作本身能否通过递归来缩放？为此，我们提出了RecursiveMAS，一个递归多智能体框架，将整个系统转化为统一的隐空间递归计算。RecursiveMAS通过轻量级的RecursiveLink模块将异构Agent连接为协作环路，实现分布内隐思想生成和跨Agent隐状态传递。为优化该框架，我们开发了内-外循环学习算法，通过递归轮次间共享的梯度归因实现迭代式全系统协同优化。运行时复杂度和学习动力学的理论分析表明，RecursiveMAS比标准基于文本的MAS更高效，且在递归训练期间保持梯度稳定。实验上，我们在4种代表性Agent协作模式下实例化RecursiveMAS，在跨数学、科学、医学、搜索和代码生成的9个基准上进行评估。与先进的单/多智能体和递归计算基线相比，RecursiveMAS一致地实现了8.3%的平均准确率提升，1.2-2.4倍的端到端推理加速，以及34.6%-75.6%的token用量减少。

Step-Audio-R1.5 Technical Report

音频推理模型从RLVR转向RLHF的范式转换，解决"可验证奖励陷阱"

作者: Yuxin Zhang et al.
来源: HuggingFace Trending (12 upvotes)
链接: arXiv | PDF
关键贡献: 识别出RLVR在音频领域的"可验证奖励陷阱"——过度优化离散标签正确性会系统性损害韵律自然度、情感连续性和用户沉浸感。提出Step-Audio-R1.5，转向RLHF范式，在保持分析推理能力的同时大幅提升长对话交互体验。
相关技术: RLVR, RLHF, audio chain-of-thought, prosodic naturalness, long-turn spoken dialogue
代码/权重: 未提及

📄 Abstract 中文翻译

大型音频语言模型的最新进展将思维链(CoT)推理扩展到听觉领域，使模型能够处理日益复杂的声学和语音任务。为了引出和维持这些扩展推理链，主流范式压倒性地依赖于带可验证奖励的强化学习(RLVR)。然而，当模型被严格优化以将丰富的连续听觉上下文蒸馏为孤立的、可验证的文本标签时，一个根本性问题出现了：我们是在培养真正的音频智能，还是仅仅将连续的感知媒介简化为离散的谜题？我们将此识别为"可验证奖励陷阱"。虽然RLVR在标准化客观基准上产生了显著分数，但它系统性降低了音频模型的真实对话感。通过优先考虑孤立的正确性而非声学细微差别，RLVR将动态交互降级为机械的"应答机器"，严重损害了韵律自然度、情感连续性和用户沉浸感。为弥合机械客观验证和真正感官共情之间的鸿沟，我们引入Step-Audio-R1.5，标志着音频推理中从RLVR到RLHF的范式转换。全面评估表明，Step-Audio-R1.5不仅保持了稳健的分析推理能力，还深刻改变了交互体验，重新定义了深度沉浸式长对话语音交互的边界。

Programming with Data: Test-Driven Data Engineering for Self-Improving LLMs from Raw Corpora

将训练数据工程映射到软件开发流程，实现模型失败的精确追踪和修复

作者: Chenkai Pan et al.
来源: HuggingFace Trending (70 upvotes)
链接: arXiv | PDF
关键贡献: 提出"Programming with Data"原则——训练数据=源代码、模型训练=编译、基准测试=单元测试、数据修复=调试。模型失败可分解为概念级缺口和推理链断裂，追溯数据缺陷定向修补，跨模型规模和架构一致改进。
相关技术: test-driven data engineering, concept-level gap tracing, failure-driven data repair, structured knowledge representation
代码/权重: 已开源 ✅

📄 Abstract 中文翻译

将专业人类知识从文本可靠地迁移到大型语言模型仍然是人工智能中的一项基本挑战。在领域语料上进行微调已实现了显著的能力提升，但该过程缺乏反馈：当模型在领域任务上失败时，没有方法诊断训练数据中的缺陷，唯一的补救措施是无差别地添加更多数据。我们展示了当从源语料库提取的结构化知识表示同时作为训练数据和评估的基础时，完整的数据工程生命周期以一种精确且可操作的方式映射到软件开发生命周期：训练数据成为指定模型应学习内容的源代码，模型训练成为编译，基准测试成为单元测试，失败驱动的数据修复成为调试。在此对应关系下，模型失败可分解为概念级缺口和推理链断裂，能够追溯到数据的特定缺陷并通过定向补丁修复，每次修复循环跨模型规模和架构产生一致改进而不降低通用能力。我们将此原则形式化为Programming with Data，并在横跨自然科学、工程、生物医学和社会科学的16个学科上实例化，发布了结构化知识库、基准套件和训练语料作为开放资源。

AutoResearchBench: Benchmarking AI Agents on Complex Scientific Literature Discovery

科学文献自主发现基准，最强LLM准确率仅9.39%

作者: Lei Xiong et al.
来源: HuggingFace Trending (25 upvotes)
链接: arXiv | PDF
关键贡献: 提出AutoResearchBench，包含Deep Research（渐进式多步追踪目标论文）和Wide Research（全面收集满足条件的论文集）两种互补任务。最强LLM在Deep Research上仅9.39%准确率。
相关技术: autonomous literature discovery, multi-step probing, open-ended search reasoning, agentic web browsing
代码/权重: 已开源 ✅

📄 Abstract 中文翻译

自主科学研究因AI智能体的发展而显著进步。该过程的一个关键步骤是找到正确的科学文献，无论是为了研究问题探索已有知识，还是为验证假设和支持主张获取证据。为评估AI智能体驱动此过程的能力，我们提出AutoResearchBench，一个专门用于自主科学文献发现的基准。AutoResearchBench包含两种互补的任务类型：(1) Deep Research，需要通过渐进式多步探测过程追踪特定目标论文；(2) Wide Research，需要全面收集满足给定条件的论文集。与之前关于智能体网页浏览的基准相比，AutoResearchBench在三个维度上具有独特性：研究导向，需要对科学概念的深入理解；文献聚焦，要求对详细信息进行细粒度利用；开放式，涉及未知数量的合格论文，因此需要审慎推理和全面搜索。即使最强大的LLM，尽管已在BrowseComp等通用智能体网页浏览基准上基本征服，在Deep Research上仅达到9.39%的准确率，在Wide Research上仅达到9.31%的IoU，而许多其他强基线低于5%。我们公开发布数据集和评估流程以促进该方向的未来研究。

🔊 Audio LLM

PSP: An Interpretable Per-Dimension Accent Benchmark for Indic Text-to-Speech

首个可解释的印度语言TTS口音逐维度评测基准

作者: Venkata Pushpak Teja Menta
来源: HuggingFace
链接: arXiv | PDF
关键贡献: 提出PSP，将口音分解为6个可解释维度：卷舌折叠率、送气保真度、元音长度保真度、Tamil-zha保真度、FAD和韵律签名散度。发现WER领先不代表口音保真度领先，无单一系统在所有维度上Pareto最优。
相关技术: forced alignment, Wav2Vec2-XLS-R embeddings, retroflex collapse rate, aspiration fidelity, prosodic signature divergence
代码/权重: 已开源 ✅

📄 Abstract 中文翻译

标准文本转语音(TTS)评估衡量可懂度(WER, CER)和整体自然度(MOS, UTMOS)，但不量化口音。合成器可能在这四项上得分良好，却在目标语言中具有音位意义的特征上听起来非母语。对于印度语言，这些特征包括卷舌发音、送气、元音长度和泰米尔语卷舌近音(字母zha)。我们提出PSP，即音素替代档案，一个可解释的、逐音位维度的印度语言TTS口音基准。PSP将口音分解为6个互补维度：卷舌折叠率(RR)、送气保真度(AF)、元音长度保真度(LF)、泰米尔语zha保真度(ZF)、Frechet音频距离(FAD)和韵律签名散度(PSD)。前四项通过强制对齐加母语者中心声学探针在Wav2Vec2-XLS-R第9层嵌入上测量；后两项是语料级别的分布距离。在v1中，我们在印地语、泰卢固语和泰米尔语试点集上对4个系统进行基准测试。三个发现：(i) 卷舌折叠随音系难度单调增长（~1%, ~40%, ~68%）；(ii) PSP排序与WER排序不同；(iii) 无单一系统在所有6个维度上Pareto最优。

Praxy Voice: Voice-Prompt Recovery + BUPS for Commercial-Class Indic TTS

零商业训练数据成本将非印度语基础模型提升至商业级印地语TTS

作者: Venkata Pushpak Teja Menta
来源: HuggingFace
链接: arXiv | PDF
关键贡献: 组合BUPS（梵文统一音素空间，7种印度文字确定性罗马化）+ 文本token预测器LoRA适配器 + 语音提示恢复方案。泰卢固语卷舌折叠26.7%（vs Sarvam Bulbul 33.3%），泰米尔语zha折叠71%（vs商业86%）。
相关技术: BUPS romanization, LoRA text-token adapter, voice-prompt recovery, exaggeration sampling, code-mix TTS
代码/权重: 已开源 ✅

📄 Abstract 中文翻译

商业TTS系统产生接近母语的印度语言音频，但最好的开源基础模型在测量的音位维度上落后，而最广泛采用的多语言基础模型(Chatterbox)甚至不标记化泰卢固语或泰米尔语。我们组合三部分：(1) BUPS，一个梵文统一音素空间，将7种印度文字确定性罗马化为ISO-15919；(2) 仅在文本token预测器上的LoRA适配器，使用约1220小时授权音频训练；(3) 语音提示恢复方案——8-11秒同语言参考片段加三个采样覆盖。在印地语上用原始Chatterbox + Config B，形成双分支部署。评估显示Praxy Voice匹配或略微领先商业基线：泰卢固语卷舌折叠26.7%，泰米尔语zha折叠71%，印地语LLM-WER 0.025。对于句内语码混合，增加第三分支将语码混合LLM-WER从0.80-0.85降至0.14-0.27。

Nemotron 3 Nano Omni: Efficient and Open Multimodal Intelligence

NVIDIA首个原生支持音频输入的多模态Nano模型

作者: NVIDIA et al.
来源: HuggingFace Trending (7 upvotes)
链接: arXiv | PDF
关键贡献: Nemotron系列首个原生支持音频输入（兼文本、图像、视频）的模型，基于30B-A3B高效骨干，引入多模态token压缩技术实现更低推理延迟。在文档理解、长音视频理解和智能体计算机使用方面表现领先。
相关技术: multimodal token-reduction, native audio input, MoE 30B-A3B, BF16/FP8/FP4 quantization
代码/权重: 已开源 ✅

📄 Abstract 中文翻译

我们介绍Nemotron 3 Nano Omni，Nemotron多模态系列的最新模型，也是首个原生支持音频输入以及文本、图像和视频的模型。Nemotron 3 Nano Omni在所有模态上都相比其前身Nemotron Nano V2 VL实现了一致的准确率提升，这得益于架构、训练数据和方法的进步。基于高效的Nemotron 3 Nano 30B-A3B骨干，Nemotron 3 Nano Omni进一步引入创新的多模态token压缩技术，相比相似大小的其他模型实现了显著更低的推理延迟和更高的吞吐量。我们以BF16、FP8和FP4格式发布模型检查点，以及部分训练数据和代码库。

Cutscene Agent: An LLM Agent Framework for Automated 3D Cutscene Generation

基于LLM Agent的端到端3D过场动画自动生成框架

作者: Lanshan He et al.
来源: HuggingFace
链接: arXiv | PDF
关键贡献: (1) 基于MCP的Cutscene Toolkit实现LLM Agent与游戏引擎双向集成，支持闭环生成可编辑引擎原生影视资产；(2) 导演Agent协调动画/摄影/音效子Agent + 视觉推理反馈循环；(3) CutsceneBench分层评估基准。
相关技术: Model Context Protocol, multi-agent orchestration, visual reasoning feedback, long-horizon tool invocation, cinematic generation
代码/权重: 未提及

📄 Abstract 中文翻译

过场动画是嵌入在视频游戏和交互媒体中的精心编排的影视序列，作为叙事传递和情感参与的主要载体。我们提出Cutscene Agent，一个用于自动化端到端过场动画生成的LLM智能体框架。三项贡献：(1) 基于模型上下文协议(MCP)的Cutscene Toolkit，建立LLM智能体与游戏引擎的双向集成——智能体不仅调用引擎操作，还持续观察实时场景状态，实现闭环生成；(2) 多智能体系统，导演智能体协调专亲子智能体，辅以视觉推理反馈循环；(3) CutsceneBench分层评估基准，覆盖长视野、多步骤、严格顺序约束的工具调用编排。

🧠 LLM Training

BARRED: Synthetic Training of Custom Policy Guardrails via Asymmetric Debate

多Agent辩论生成合成训练数据，小模型微调后超越商业大模型守卫效果

作者: Arnon Mazza, Elad Levi
来源: HuggingFace (6 upvotes)
链接: arXiv | PDF
关键贡献: 仅用任务描述和少量未标注样本，通过维度分解确保覆盖、多Agent辩论验证标签正确性生成高保真训练语料。微调后小语言模型一致超越SOTA商业LLM（含推理模型）和专用守卫模型。
相关技术: dimension decomposition, multi-agent debate verification, synthetic training data, custom policy guardrail, small model finetuning
代码/权重: 未提及

📄 Abstract 中文翻译

为自定义策略部署守卫仍然具有挑战性，因为通用安全模型无法捕获特定任务需求，而提示LLM受不一致的边界情况性能和高推理成本之苦。训练自定义分类器同时实现准确性和效率，但需要大量标注数据。我们提出BARRED（通过反思和辩论的边界对齐全化），一个仅使用任务描述和少量未标注样本即可生成忠实且多样合成训练数据的框架。方法将领域空间分解为维度以确保全面覆盖，并采用多智能体辩论验证标签正确性。跨多种自定义策略的实验表明，微调的小语言模型一致超越最先进的专有LLM（包括推理模型）和专用守卫模型。消融研究证实维度分解和基于辩论的验证对确保多样性和标签保真度至关重要。

Large Language Models Explore by Latent Distilling

用预测误差作为新颖性信号引导解码，突破语义多样性瓶颈

作者: Yuanhao Zeng et al.
来源: HuggingFace Trending (30 upvotes)
链接: arXiv | PDF
关键贡献: 提出ESamp，测试时训练轻量Distiller预测深层隐表示，用预测误差作为新颖性信号重新加权候选token。异步管线<5%开销，显著提升推理模型Pass@k，打破多样性与连贯性权衡。
相关技术: test-time latent distilling, novelty signal reweighting, shallow-to-deep representation prediction, Pass@k efficiency
代码/权重: 已开源 ✅

📄 Abstract 中文翻译

生成多样化响应对LLM的测试时缩放至关重要，然而标准随机采样主要产生表层词汇变化。我们提出探索性采样(ESamp)，在生成过程中明确鼓励语义多样性。ESamp基于神经网络在相似输入上预测误差低、新颖输入上误差高的观察。测试时训练轻量Distiller从浅层预测LLM的深层隐表示，用预测误差作为新颖性信号重新加权候选token。异步训练-推理管线最坏情况<5%开销。实验表明ESamp显著提升推理模型Pass@k效率，在数学、科学和代码生成上稳健泛化，并打破创意写作中多样性与连贯性的权衡。

DV-World: Benchmarking Data Visualization Agents in Real-World Scenarios

真实世界数据可视化Agent基准，SOTA模型总性能不到50%

作者: Jinxiang Meng et al.
来源: HuggingFace Trending (37 upvotes)
链接: arXiv | PDF
关键贡献: 260任务基准，覆盖DV-Sheet（原生电子表格操作）、DV-Evolution（跨编程范式适配）和DV-Interact（主动意图对齐）三个领域。SOTA模型总体性能不足50%。
相关技术: native spreadsheet manipulation, cross-platform visual evolution, proactive intent alignment, table-value alignment, MLLM-as-a-Judge
代码/权重: 已开源 ✅

📄 Abstract 中文翻译

真实世界数据可视化需要原生环境接地、跨平台演化和主动意图对齐。我们引入DV-World，260个任务评估DV智能体在专业生命周期中的表现。涵盖DV-Sheet（原生电子表格操作含图表/仪表板创建和诊断修复）、DV-Evolution（跨编程范式适配参考可视化资产）和DV-Interact（与用户模拟器的主动意图对齐）。混合评估框架整合Table-value Alignment和MLLM-as-a-Judge。实验揭示SOTA模型总体性能不到50%，暴露了处理真实世界数据可视化复杂挑战的关键缺陷。

A Systematic Post-Train Framework for Video Generation

视频生成模型后训练四阶段框架：SFT→RLHF→提示增强→推理优化

作者: Zeyue Xue et al.
来源: HuggingFace
链接: arXiv | PDF
关键贡献: 四阶段协同后训练框架：SFT→为视频扩散量身定制的GRPO-RLHF→专用语言模型提示增强→推理优化。缓解常见伪影，提升可控性和视觉美学。
相关技术: GRPO for video diffusion, supervised fine-tuning, RLHF, prompt enhancement, inference optimization
代码/权重: 未提及

📄 Abstract 中文翻译

大规模视频扩散模型在生成高分辨率和语义丰富内容方面展现了令人印象深刻的能力，但预训练性能与真实世界部署需求之间仍存在显著差距。我们提出全面的后训练框架，四个协同阶段：SFT将基础模型转化为稳定的指令遵循策略，RLHF使用为视频扩散量身定制的GRPO增强感知质量和时序连贯性，专用语言模型进行提示增强，推理优化解决效率问题。实验表明统一管线有效缓解常见伪影并显著改善可控性和视觉美学，同时遵守采样成本约束。

Latent Agents: A Post-Training Procedure for Internalized Multi-Agent Debate

将多Agent辩论蒸馏进单个LLM，token用量减少93%

作者: John Seon Keun Yi et al.
来源: HuggingFace
链接: arXiv | PDF
关键贡献: 两阶段微调将多Agent辩论蒸馏到单个LLM，用最多93%更少的token匹配显式辩论性能。发现内化创造了Agent特定子空间。实用应用：注入恶意Agent后负向转向可更好定位和控制有害行为。
相关技术: debate distillation, activation steering, agent-specific subspace, dynamic reward scheduling
代码/权重: 已开源 ✅

📄 Abstract 中文翻译

多智能体辩论已被证明可以改善LLM的推理，但计算密集。我们开发框架通过两阶段微调管线将多智能体辩论蒸馏到单个LLM中。跨多个模型和基准，内化模型使用最多93%更少的token匹配或超越显式多智能体辩论性能。通过激活转向发现内化创造了智能体特定子空间——激活空间中对应不同智能体视角的可解释方向。进一步展示：通过内化辩论注入恶意智能体后应用负向转向，使有害行为更容易定位和控制，通用性能降低更小。

Toward Scalable Terminal Task Synthesis via Skill Graphs

基于技能图的终端任务合成框架，显式控制执行轨迹多样性

作者: Zhiyuan Fan et al.
来源: HuggingFace (6 upvotes)
链接: arXiv | PDF
关键贡献: SkillSynth框架：构建大规模技能图（场景为中间转换节点）→采样路径作为工作流抽象→多Agent线束实例化为可执行任务。显式控制执行轨迹多样性，已用于训练Hy3 Preview。
相关技术: skill graph construction, graph-sampled workflow paths, scenario-mediated transition, multi-agent harness instantiation
代码/权重: 未提及

📄 Abstract 中文翻译

终端智能体展示了自主命令行执行的强大潜力，但训练受限于高质量执行轨迹的稀缺性。现有方法通过合成大规模任务实例来采样轨迹，但对执行轨迹的多样性控制有限。我们提出SkillSynth，基于场景中介技能图的自动化终端任务合成框架。先构建大规模技能图（场景为连接多样化命令行技能的中间节点），再采样路径作为工作流抽象，用多智能体线束实例化。基于图采样路径的合成显式控制了最小执行轨迹的多样性。在Terminal-Bench上验证有效，且已用于训练Hy3 Preview。

将图像精化重新定义为条件再生而非编辑，修改空间大幅扩大

作者: Jiayi Guo et al.
来源: HuggingFace Trending (22 upvotes)
链接: arXiv | PDF
关键贡献: 提出RvR框架，以目标提示和初始图像语义token为条件重新生成图像（而非编辑），Geneval从0.78→0.91，DPGBench 84.02→87.21。
相关技术: conditional image regeneration, semantic token conditioning, modification space enlargement, unified multimodal model
代码/权重: 未提及

📄 Abstract 中文翻译

统一多模态模型集成了视觉理解和生成。当前精化方法遵循精化-通过-编辑(RvE)范式，编辑指令仅粗略描述不对齐且像素级保留不必要地限制修改空间。我们提出通过再生精化(RvR)，将精化重新定义为条件图像再生。RvR以目标提示和初始图像的语义token为条件重新生成，在更大修改空间下实现更完整的语义对齐。Geneval从0.78提升至0.91，DPGBench从84.02提升至87.21，UniGenBench++从61.53提升至77.41。

Prism-Reranker: Beyond Relevance Scoring – Jointly Producing Contributions and Evidence for Agentic Retrieval

超越标量评分，联合产出贡献陈述和证据段落的重排器

作者: Dun Zhang
来源: HuggingFace (3 upvotes)
链接: arXiv | PDF
关键贡献: Prism-Reranker（基于Qwen3.5，0.8B/2B/4B/9B四种尺寸），除标准相关性判断外，当判决为"是"时额外输出贡献陈述和证据段落。混合目标结合蒸馏和SFT。增强Qwen3-Reranker-4B后BEIR-QA NDCG@10提升+1.54。
相关技术: point-wise distillation, contribution statement generation, evidence passage rewrite, LLM-as-Judge relabeling, agent-oriented retrieval
代码/权重: 已开源 ✅

📄 Abstract 中文翻译

现代检索管线越来越多地服务于RAG和自主智能体等下游消费者，它们需要的不仅是标量相关性分数。只告诉调用者"多相关"的重排器迫使智能体将整个文档倾倒进LM上下文，浪费token在无关段落上。我们提出Prism-Reranker，基于Qwen3.5四种尺寸的重排器模型族。除标准是/否相关性判断外，当判决为是时模型额外输出贡献陈述（总结文档如何帮助查询）和证据段落（保留所有查询相关信号同时去除噪声的自包含重写）。混合训练目标结合从强商业重排器API的点式蒸馏与贡献和证据目标的SFT。增强Qwen3-Reranker-4B后平均BEIR-QA NDCG@10提升+1.54。

🤖 AI Agents

Anonymization-Enhanced Privacy Protection for Mobile GUI Agents

“可用但不可见"原则——敏感数据对Agent可用但不直接可见

作者: Lepeng Zhao et al.
来源: HuggingFace
链接: arXiv | PDF
关键贡献: 提出基于匿名化的隐私保护框架，用PII感知识别模型检测敏感UI内容，替换为确定性、类型保留的占位符（如PHONE_NUMBER#a1b2c）。分层架构（PII Detector + UI Transformer + Secure Interaction Proxy + Privacy Gatekeeper）确保跨指令、XML和截图的一致匿名化。在AndroidLab和PrivScreen上大幅降低隐私泄露，仅适度降低实用性。
相关技术: PII-aware recognition, type-preserving placeholder, Secure Interaction Proxy, Privacy Gatekeeper, available-but-invisible access
代码/权重: 已开源 ✅

📄 Abstract 中文翻译

移动GUI智能体通过利用MLLM和系统级控制接口在自动化复杂智能手机任务方面展现了强大能力。然而，这种范式引入了重大隐私风险，因为智能体通常捕获和处理整个屏幕内容，暴露电话号码、地址、消息和金融信息等敏感个人数据。现有防御要么减少UI暴露、仅混淆任务无关内容，要么依赖用户授权，但都无法在保护任务关键敏感信息的同时保持无缝智能体可用性。我们提出基于匿名化的隐私保护框架，强制执行"可用但不可见"的敏感数据访问原则。系统使用PII感知识别模型检测敏感UI内容，替换为确定性、类型保留的占位符。分层架构确保一致匿名化、调解所有智能体动作，并在需要原始值推理时支持狭窄范围的本地计算。实验表明框架大幅降低隐私泄露，仅适度降低实用性，实现最佳隐私-实用性权衡。

Co-Director: Agentic Generative Video Storytelling

层次化多Agent视频叙事框架，用多臂赌博机平衡探索与利用

作者: Yale Song et al.
来源: HuggingFace Trending (11 upvotes)
链接: arXiv | PDF
关键贡献: 提出Co-Director层次化多Agent框架，将视频叙事形式化为全局优化问题。多臂赌博机全局识别有前景的创作方向，局部多模态自精化循环减轻身份漂移并确保序列级一致性。引入GenAD-Bench（400场景个性化广告数据集）。
相关技术: multi-armed bandit exploration, multimodal self-refinement loop, identity drift mitigation, hierarchical parameterization, global creative optimization
代码/权重: 未提及

📄 Abstract 中文翻译

扩散模型生成高保真视频片段，但将它们转化为连贯的叙事引擎仍然具有挑战性。当前智能体管线通过链式模块自动化此过程，但因独立的手工提示导致语义漂移和级联失败。我们提出Co-Director，将视频叙事形式化为全局优化问题的层次化多智能体框架。为确保语义连贯，我们引入层次化参数化：多臂赌博机全局识别有前景的创作方向，而局部多模态自精化循环减轻身份漂移并确保序列级一致性。这平衡了对新叙事策略的探索和对有效创作配置的利用。我们引入GenAD-Bench，400场景的虚构产品个性化广告数据集。实验表明Co-Director显著超越SOTA基线。

Meta-CoT: Enhancing Granularity and Generalization in Image Editing

双层分解实现图像编辑的理解粒度与泛化双提升

作者: Shiyi Zhang et al.
来源: HuggingFace Trending (23 upvotes)
链接: arXiv | PDF
关键贡献: 提出Meta-CoT范式，将编辑操作分解为三元组(task, target, required understanding ability)。(1) 可分解性：同时分解编辑任务和目标，生成任务特定CoT；(2) 泛化性：将编辑任务分解为5个元任务，仅在元任务上训练即可强泛化到未见编辑任务。21个编辑任务整体提升15.8%。
相关技术: triplet decomposition, meta-task generalization, CoT-Editing Consistency Reward, editing granularity, unseen task generalization
代码/权重: 已开源 ✅

📄 Abstract 中文翻译

统一多模态理解/生成模型通过将细粒度理解纳入CoT过程改善了图像编辑性能。然而，何种形式的CoT和训练策略能同时增强理解粒度和泛化能力？我们提出Meta-CoT，对任何单图像编辑操作执行两级分解：(1) 可分解性：任何编辑意图可表示为三元组(task, target, required understanding ability)。Meta-CoT同时分解编辑任务和目标，生成任务特定CoT并遍历所有目标的编辑操作，增强理解粒度。(2) 泛化性：将编辑任务进一步分解为5个基本元任务，仅在元任务加其他两个元素上训练即可实现强泛化。引入CoT-Editing Consistency Reward对齐编辑行为与CoT推理。21个编辑任务整体提升15.8%，在少量元任务上训练即可泛化到未见编辑任务。

KOCO-BENCH: Can Large Language Models Leverage Domain Knowledge in Software Development?

领域专业化方法评估基准，最强编码Agent仅34.2%

作者: Xue Jiang et al.
来源: HuggingFace
链接: arXiv | PDF
关键贡献: 提出KOCO-BENCH，6个新兴领域、11个框架、25个项目，配备策划的知识语料库和多粒度评估（函数级到项目级代码生成+领域知识理解）。即使应用SFT/RAG/kNN-LM，改进仍有限。Claude Code仅达34.2%。
相关技术: domain specialization evaluation, knowledge corpus acquisition, multi-granularity code generation, domain knowledge understanding, SFT/RAG/kNN-LM
代码/权重: 已开源 ✅

📄 Abstract 中文翻译

LLM擅长通用编程但在领域特定软件开发上困难，需要领域专业化方法让LLM学习利用领域知识。然而现有领域代码基准无法评估领域专业化方法的有效性，关注的是LLM拥有什么知识而非如何获取和应用新知识。我们提出KOCO-BENCH，6个新兴领域含11个框架和25个项目，配有策划的知识语料库和多粒度评估。KOCO-BENCH要求从知识语料库获取和应用多样化领域知识来完成任务。即使应用SFT、RAG、kNN-LM等专业化方法，改进仍有限。最佳编码智能体Claude Code仅达34.2%。

📌 通用热门

ReVSI: Rebuilding Visual Spatial Intelligence Evaluation for Accurate Assessment of VLM 3D Reasoning

重建视觉空间智能评估，修正现有基准的系统性无效

作者: Yiming Zhang et al.
来源: HuggingFace Trending (60 upvotes)
链接: arXiv | PDF
关键贡献: 揭示当前空间智能评估在VLM设置下系统性无效：基于点云3D标注的QA存在重建/标注伪影，且假设全场景访问但VLM仅在稀疏帧上操作。提出ReVSI基准，重新标注381个场景，以多帧预算(16/32/64/all)和细粒度对象可见性元数据重新生成QA，确保在模型实际输入下可回答且正确。
相关技术: spatial intelligence evaluation, sparse frame budget, bias mitigation QA regeneration, object visibility metadata, point-cloud annotation artifact
代码/权重: 未提及

📄 Abstract 中文翻译

当前空间智能评估在现代VLM设置下可能系统性无效。首先，许多基准从为传统3D感知策展的基于点云的3D标注派生QA，当这些标注被用作视频评估的ground truth时，重建和标注伪影可能遗漏视频中清晰可见的对象、错误标记对象身份或损坏依赖几何的答案。其次，评估通常假设全场景访问，而许多VLM在稀疏采样帧（16-64）上操作，使许多问题在模型实际输入下实际上不可回答。我们引入ReVSI，确保每个QA对在模型实际输入下可回答且正确。重新标注381个场景，以严格偏差缓解和人工验证重新生成所有QA。提供多帧预算变体和细粒度对象可见性元数据，实现受控诊断分析。评估揭示了先前基准掩盖的系统性失败模式。

📌 其他值得关注

OmniShotCut: Holistic Relational Shot Boundary Detection with Shot-Query Transformer

将镜头边界检测重构为结构化关系预测

作者: Boyang Wang et al.
来源: HuggingFace (9 upvotes)
链接: arXiv | PDF
关键贡献: 将镜头边界检测(SBD)重构为结构化关系预测，联合估计镜头范围及镜头内/间关系。全合成转场生成管线替代不精确手动标注。引入OmniShotCutBench现代宽域基准。
相关技术: structured relational prediction, shot-query dense Transformer, synthetic transition synthesis, intra-shot/inter-shot relation
代码/权重: 未提及

📄 Abstract 中文翻译

镜头边界检测(SBD)旨在自动识别镜头变化并将视频分割为连贯镜头。现有SOTA方法常在转场上产生不可解释的边界、遗漏微妙的有害不连续性，且依赖噪声低多样性标注和过时基准。我们提出OmniShotCut，将SBD形式化为结构化关系预测，通过shot-query密集视频Transformer联合估计镜头范围及镜头内/间关系。采用全合成转场管线自动复现主要转场家族含精确边界和参数化变体。引入OmniShotCutBench现代宽域基准实现全面诊断评估。

Generated on 2026-04-30T00:00Z | Sources: HuggingFace