今日概览
共收录 15 篇论文 | Audio LLM: 2篇 | LLM Training: 4篇 | AI Agents: 4篇 | 通用热门: 1篇 | 其他值得关注: 4篇 来源: HuggingFace(15)
重点推荐 ⭐
Stream-T1: Test-Time Scaling for Streaming Video Generation
首个专为流式视频生成设计的测试时扩展框架,用历史噪声传播和奖励引导剪枝实现时间一致性和视觉质量的双重提升
- 作者: Yijing Tu et al.
- 来源: HuggingFace Trending (93 upvotes)
- 链接: arXiv | PDF
- 关键贡献: 将测试时扩展(Test-Time Scaling)从扩散模型迁移到流式视频生成,利用chunk级合成的天然优势大幅降低计算开销;提出三个核心组件——流式噪声传播建立时序依赖、奖励剪枝平衡空间美学与时序一致性、记忆下沉机制让已生成内容锚定后续生成流。
- 相关技术: test-time scaling, streaming video generation, noise propagation, reward pruning, KV-cache memory sinking
- 代码/权重: 未提及
📄 Abstract 中文翻译
虽然测试时扩展(TTS)为无需飙升训练成本即可增强视频生成提供了有前景的方向,但当前基于扩散模型的测试时视频生成方法面临高昂的候选探索成本且缺乏时序引导。为解决这些结构性瓶颈,我们提出将焦点转向流式视频生成。我们发现其块级合成和少量去噪步骤天然适合TTS,显著降低了计算开销同时实现细粒度时序控制。基于此洞察,我们提出了Stream-T1,首个专为流式视频生成量身定制的全面TTS框架。具体而言,Stream-T1由三个单元组成:(1) Stream-Scaled Noise Propagation,利用历史验证的高质量先前块噪声主动优化生成块的初始潜噪声,有效建立时序依赖并利用历史高斯先验引导当前生成;(2) Stream-Scaled Reward Pruning,综合评估生成候选以在局部空间美学和全局时序一致性之间取得最优平衡,通过整合即时短期评估与基于滑动窗口的长期评估;(3) Stream-Scaled Memory Sinking,根据奖励反馈将KV-cache中驱逐的上下文动态路由到不同的更新路径,确保先前生成的视觉信息有效锚定和引导后续视频流。在5秒和30秒综合视频基准上的评估表明,Stream-T1展现出显著优越性,大幅提升了时序一致性、运动平滑度和帧级视觉质量。
Stream-R1: Reliability-Perplexity Aware Reward Distillation for Streaming Video Generation
针对流式视频生成蒸馏中教师信号质量参差不齐的问题,提出可靠性-困惑度双轴自适应重加权蒸馏框架
- 作者: Bin Wu et al.
- 来源: HuggingFace Trending (108 upvotes)
- 链接: arXiv | PDF
- 关键贡献: 发现现有蒸馏方法将教师的每次输出等权对待会限制蒸馏质量,提出从Inter-Reliability(rollout间)和Intra-Perplexity(时空维度内)两个互补轴重新加权蒸馏目标;通过共享的奖励引导机制,在rollout级别用视频奖励分数缩放损失,在像素级别用梯度显著性集中优化压力。
- 相关技术: distribution matching distillation, reward-guided distillation, streaming video generation, gradient saliency, adaptive reweighting
- 代码/权重: 未提及
📄 Abstract 中文翻译
基于蒸馏的加速已成为使自回归流式视频扩散模型实用化的基础,分布匹配蒸馏(DMD)作为事实标准。然而,现有方法训练学生模型不加区分地匹配教师输出,将每次rollout、每帧和每个像素视为同等可靠的监督。我们认为这限制了蒸馏质量,因为它忽略了DMD监督中两个互补的方差轴:学生rollout之间的Inter-Reliability(监督的可靠性各不相同),以及Intra-Perplexity(空间区域和时间帧对质量改进的贡献不等)。因此,目标在一个统一权重下混淆了两个问题:是否从每次rollout中学习,以及在rollout内将优化集中在何处。为此,我们提出Stream-R1,一个Reliability-Perplexity Aware Reward Distillation框架,通过单一的共享奖励引导机制在rollout级别和时空元素级别自适应地重新加权蒸馏目标。在Inter-Reliability层面,Stream-R1用预训练视频奖励分数的指数来缩放每次rollout的损失,使具有可靠监督的rollout主导优化。在Intra-Perplexity层面,它将同一奖励模型反向传播以提取逐像素梯度显著性,分解为空间和时间权重,将优化压力集中在改进收益最大的区域和帧上。自适应平衡机制防止单一质量轴在视觉质量、运动质量和文本对齐之间占主导。Stream-R1在标准流式视频生成基准上实现了三个维度的一致改进,无需架构修改或额外推理成本。
CreativityBench: Evaluating Agent Creative Reasoning via Affordance-Based Tool Repurposing
首个评估LLM创造性工具使用能力的基准,揭示模型能选对物体却无法识别正确的部件和可供性
- 作者: Cheng Qian et al.
- 来源: HuggingFace (1 upvote)
- 链接: arXiv | PDF
- 关键贡献: 构建了4K实体、150K+可供性标注的大规模知识库,生成14K需要非显而易见但物理可行的解决方案的约束任务;评估10个SOTA LLM发现,模型能选对物体但无法识别正确部件和物理机制,模型缩放的改进快速饱和,Chain-of-Thought等推理策略收益有限。
- 相关技术: affordance knowledge base, creative tool repurposing, constraint-based task generation, object-part affordance reasoning
- 代码/权重: 未提及
📄 Abstract 中文翻译
大型语言模型的最新进展在推理和环境交互任务上取得了强劲表现,但其创造性问题解决能力仍未被充分探索。我们通过创造性工具使用的视角研究这一能力,即模型通过推理物体的可供性(affordance)和属性而非依赖规范用法来重新利用可用物体。作为第一步,我们引入CreativityBench,一个评估LLM中基于可供性的创造力的基准。为此,我们构建了一个大规模可供性知识库(KB),包含4K实体和150K+可供性标注,显式链接物体、部件、属性和可行动用途。在此基础上,我们生成14K基础任务,需要在约束下识别非显而易见但物理可行的解决方案。对10个最先进的LLM(包括闭源和开源模型)的评估显示,模型通常能选择一个合理的物体,但无法识别正确的部件、其可供性以及解决问题所需的底层物理机制,导致性能显著下降。此外,模型缩放的改进快速饱和,强通用推理不能可靠地转化为创造性可供性发现,常见的推理时策略如Chain-of-Thought收益有限。这些结果表明创造性工具使用仍是当前模型的重大挑战,CreativityBench为研究智能的这一缺失维度提供了有用的测试平台。
JoyAI-Image: Awaking Spatial Intelligence in Unified Multimodal Understanding and Generation
统一多模态理解与生成模型,通过空间增强MLLM与MMDiT的双向循环实现空间智能觉醒
- 作者: Lin Song et al.
- 来源: HuggingFace (8 upvotes)
- 链接: arXiv | PDF
- 关键贡献: 将空间增强MLLM与多模态DiT耦合,通过统一指令微调、长文本渲染监督和空间接地数据实现理解与生成的双向交互;增强理解→可控空间编辑→新视角辅助推理的闭环使模型超越一般视觉能力,向更强的空间智能迈进。
- 相关技术: spatially enhanced MLLM, Multimodal Diffusion Transformer, spatial grounded data, instruction-guided editing, novel-view reasoning
- 代码/权重: 未提及
📄 Abstract 中文翻译
我们提出JoyAI-Image,一个用于视觉理解、文本到图像生成和指令引导图像编辑的统一多模态基础模型。JoyAI-Image将空间增强的多模态大语言模型(MLLM)与多模态DiT(MMDiT)耦合,使感知和生成通过共享的多模态接口进行交互。围绕这一架构,我们构建了一个可扩展的训练方案,结合统一指令微调、长文本渲染监督、空间接地数据,以及通用和空间编辑信号。这一设计赋予模型广泛的多模态能力,同时增强了几何感知推理和可控视觉合成。在理解、生成、长文本渲染和编辑基准上的实验表明,JoyAI-Image达到了最先进或极具竞争力的性能。更重要的是,增强理解、可控空间编辑和新视角辅助推理之间的双向循环使模型能够超越一般视觉能力,向更强的空间智能发展。这些结果为统一视觉模型在视觉-语言-动作系统和世界模型等下游应用中指明了有前景的方向。
🔊 Audio LLM
Empirical Study of Pop and Jazz Mix Ratios for Genre-Adaptive Chord Generation
研究和弦生成模型跨风格微调时旧域数据保留量的最佳配比,发现2.5倍新域数据量的排练样本即可恢复基线性能
- 作者: Jinju Lee
- 来源: HuggingFace (0 upvotes)
- 链接: arXiv | PDF
- 关键贡献: 将和弦进行生成作为独立任务研究跨风格适应中的灾难性遗忘问题;在25M参数Music Transformer上实验发现,2.5K排练样本(约1.65倍爵士数据量)即可恢复流行和弦准确率至基线,但指标最优的配置并非听感最佳的配置。
- 相关技术: chord progression generation, genre adaptation, rehearsal data mixing, catastrophic forgetting, Music Transformer
- 代码/权重: 已开源 ✅ (HuggingFace Hub: PearlLeeStudio)
📄 Abstract 中文翻译
和弦进行生成在实践上重要但研究不足。大多数大规模符号音乐系统针对旋律、多轨编曲或音频合成,而仅和弦模型往往被降级为更大流水线中的条件组件。本文将和弦生成作为独立任务,解决模型跨风格适应时出现的一个问题:微调时必须保留多少旧域数据才能习得新域而不遗忘旧域?我从一个流行音乐预训练的25M参数Music Transformer(在held-out流行测试集上84.24% top-1和弦准确率)出发,进行爵士微调研究。可用爵士语料比流行语料小一个数量级,因此每次微调运行使用全部1,513条爵士训练序列。扫描变量是混入的流行"排练"数据量,取值为{0, 1K, 2.5K, 5K, 10K}。每个微调模型在爵士top-1上提升7-9个点。流行准确率在仅爵士微调下下降2.14个点,在约2.5K排练样本(爵士量的1.65倍)时恢复到基线,超过此点后饱和。一个补充观察:指标最佳运行(F3, 2.5K混合)并非总是听感首选。流行倾向(10K)和爵士倾向(1K)端点带有更鲜明的风格特征,作者在非正式听音中更常选择它们作为最终输出。所有六个检查点已在HuggingFace Hub上发布。
🧠 LLM Training
D-OPSD: On-Policy Self-Distillation for Continuously Tuning Step-Distilled Diffusion Models
让少步蒸馏扩散模型在微调新概念时不牺牲原始少步推理能力,通过同策略自蒸馏实现
- 作者: Dengyang Jiang et al.
- 来源: HuggingFace Trending (19 upvotes)
- 链接: arXiv | PDF
- 关键贡献: 发现以LLM/VLM为编码器的现代扩散模型可继承编码器的上下文学习能力,利用此特性实现同策略自蒸馏——模型自身同时作为教师(文本+图像多模态条件)和学生(仅文本条件),在自身轨迹和自身监督下优化,微调新概念和风格时不丢失少步推理能力。
- 相关技术: on-policy self-distillation, step-distilled diffusion models, in-context capability, multimodal conditioning, supervised fine-tuning
- 代码/权重: 未提及
📄 Abstract 中文翻译
高性能图像生成模型的格局正从低效的多步模型转向高效的少步模型(如Z-Image-Turbo和FLUX.2-klein)。然而,这些模型对直接持续监督微调提出了重大挑战。例如,应用常用的微调技术会损害其固有的少步推理能力。为此,我们提出D-OPSD,一种用于步蒸馏扩散模型的新训练范式,在监督微调期间启用同策略学习。我们首先发现,以LLM/VLM作为编码器的现代扩散模型可以继承其编码器的上下文学习能力。这使我们能将训练变成同策略自蒸馏过程。具体而言,在训练中,模型在不同上下文下同时充当教师和学生——学生仅以文本特征为条件,而教师以文本提示和目标图像的多模态特征为条件。训练最小化学生在自身roll-out上的两个预测分布。通过在模型自身轨迹和自身监督下优化,D-OPSD使模型能够学习新概念、风格等,而不牺牲原始少步能力。
When to Think, When to Speak: Learning Disclosure Policies for LLM Reasoning
在自回归生成中让模型学会何时披露推理内容、何时继续私下思考,提升准确率-内容-延迟的帕累托权衡
- 作者: Jiaqi Wei et al.
- 来源: HuggingFace (1 upvote)
- 链接: arXiv | PDF
- 关键贡献: 指出单流自回归接口中思考与输出的耦合造成"沉默税"——更多推理推迟首条任务内容,过早流式输出则有偏见风险;提出Side-by-Side(SxS)交织推理,在标准自回归生成内将披露时机变成可控决策,通过蕴含对齐的交织轨迹训练+SFT+RL恢复推理性能。
- 相关技术: interleaved reasoning, disclosure policy, autoregressive generation, entailment-aligned training, token-level latency optimization
- 代码/权重: 未提及
📄 Abstract 中文翻译
在单流自回归接口中,相同的token既更新模型状态又构成不可逆的公开承诺。这种耦合造成了沉默税:额外的推理推迟了第一条任务相关内容的出现,而朴素的早期流式输出则面临使后续生成产生偏见的过早承诺风险。我们引入Side-by-Side(SxS)交织推理,将披露时机变成标准自回归生成中的可控决策。SxS在同一上下文中交织部分披露与持续私有推理,但仅在当前推理足以支持时才发布内容。为学习这种节奏而不激励填充token,我们通过将答案前缀与支持推理前缀匹配来构建蕴含对齐的交织轨迹,然后用SFT获取双动作语义,用RL在新格式下恢复推理性能。在两个Qwen3架构/规模(MoE Qwen3-30B-A3B,密集Qwen3-4B)和域内(AIME25)域外(GPQA-Diamond)基准上,SxS在token级代理指标如更新间等待下改善了准确率-内容-延迟的帕累托权衡。
🤖 AI Agents
Rethinking Reasoning-Intensive Retrieval: Evaluating and Advancing Retrievers in Agentic Search Systems
面向智能体搜索系统构建推理密集型检索基准和训练语料,揭示aspect-aware评估和智能体协议下检索器行为的隐藏缺陷
- 作者: Yilun Zhao et al.
- 来源: HuggingFace Trending (27 upvotes)
- 链接: arXiv | PDF
- 关键贡献: 提出BRIGHT-Pro专家标注基准,每个查询配备多方面金标准证据,在静态和智能体搜索协议下评估检索器;构建RTriever-Synth合成语料,生成互补正样本和条件化硬负样本;LoRA微调的RTriever-4B在推理密集检索上大幅超越基座模型。
- 相关技术: reasoning-intensive retrieval, aspect-decomposed synthesis, agentic search protocol, complementary evidence, hard negative mining
- 代码/权重: 未提及
📄 Abstract 中文翻译
推理密集型检索旨在提供支持下游推理的证据,而非仅仅匹配主题相似性。这一能力对智能体搜索系统日益重要,其中检索器必须在迭代搜索和综合中提供互补证据。然而,现有工作在评估和训练方面都有限:如BRIGHT等基准提供狭窄的金标准集并孤立评估检索器,而合成训练语料通常优化单段落相关性而非证据组合构建。我们引入BRIGHT-Pro,一个专家标注的基准,为每个查询扩展多方面金标准证据,并在静态和智能体搜索协议下评估检索器。我们进一步构建RTriever-Synth,一个方面分解的合成语料,生成互补正样本和正条件化的硬负样本,并用它从Qwen3-Embedding-4B LoRA微调RTriever-4B。跨词汇、通用和推理密集型检索器的实验表明,aspect-aware和智能体评估暴露了标准指标隐藏的行为,而RTriever-4B大幅超越其基座模型。
PhysForge: Generating Physics-Grounded 3D Assets for Interactive Virtual World
两阶段解耦框架生成物理接地的3D资产,VLM规划物理蓝图+扩散模型实现几何与运动学参数
- 作者: Yunhan Yang et al.
- 来源: HuggingFace Trending (30 upvotes)
- 链接: arXiv | PDF
- 关键贡献: 提出交互资产生成必须根植于功能逻辑和层次化物理;第一阶段VLM作为"物理架构师"规划层次化物理蓝图(材料、功能、运动学约束),第二阶段物理接地扩散模型通过KineVoxel Injection机制同步合成高保真几何与精确运动学参数;配套PhysDB数据集包含15万资产和四层物理标注。
- 相关技术: physics-grounded generation, hierarchical physical blueprint, KineVoxel Injection, functional logic planning, kinematic parameter synthesis
- 代码/权重: 未提及
📄 Abstract 中文翻译
合成物理接地的3D资产是交互虚拟世界和具身AI的关键瓶颈。现有方法主要关注静态几何,忽略了交互所必需的功能属性。我们提出交互资产生成必须根植于功能逻辑和层次化物理。为弥合这一差距,我们引入PhysForge,一个解耦的两阶段框架,由PhysDB支持——一个包含150,000个资产和四层物理标注的大规模数据集。首先,VLM作为"物理架构师"规划"层次化物理蓝图",定义材料、功能和运动学约束。其次,物理接地扩散模型通过新颖的KineVoxel Injection(KVI)机制实现此蓝图,同步合成高保真几何和精确运动学参数。实验表明PhysForge产生功能合理、仿真就绪的资产,为交互3D内容和具身智能体提供了稳健的数据引擎。
SWE-WebDevBench: Evaluating Coding Agent Application Platforms as Virtual Software Agencies
68项指标全面评估AI应用构建平台,揭示规格瓶颈、前后端脱节、生产就绪度悬崖和安全缺陷四大共性问题
- 作者: Siddhant Saxena et al.
- 来源: HuggingFace (2 upvotes)
- 链接: arXiv | PDF
- 关键贡献: 构建覆盖25主指标+43诊断指标的68指标评估框架,沿交互模式(创建/修改)、代理角度(PM/工程/运维)和复杂度层级三个维度评估;评估6个平台发现四大问题——规格压缩瓶颈、前后端脱节(华丽UI掩盖缺失后端)、工程质量无平台超60%、安全与并发处理严重不足。
- 相关技术: full-stack code generation, multi-metric evaluation, production readiness, security benchmarking, vibe coding platforms
- 代码/权重: 已开源 ✅
📄 Abstract 中文翻译
“vibe coding"平台的出现——用户用自然语言描述应用,AI代理自主生成全栈软件——创造了超越代码级基准的严格评估需求。为将它们作为虚拟软件开发机构评估,考察理解业务需求、做出架构决策、编写生产代码、处理迭代修改和维护业务就绪度的能力,我们引入SWE-WebDevBench,一个68指标评估框架,涵盖七组25主指标和43诊断指标,沿三个维度组织:交互模式(应用创建请求(ACR) vs. 应用修改请求(AMR))、代理角度(产品经理(PM)、工程、运维)和复杂度层级(T4多角色SaaS, T5 AI原生)。我们的评估(6个平台、3个领域、18个评估单元)揭示了当前AI应用构建器的四个反复出现的缺陷:(1)规格瓶颈——平台将丰富的业务需求压缩为过度简化的技术方案;(2)普遍的前后端脱节——视觉精美的UI掩盖了缺失或损坏的后端基础设施;(3)陡峭的生产就绪度悬崖——没有平台在工程质量上超过60%,且生成后的人工努力因平台而异;(4)广泛的安全和基础设施故障——没有平台超过65%安全分数(目标90%),并发处理低至6%。我们发布SWE-WebDevBench作为社区基准以推动平台建设者识别和解决这些差距。
Workspace-Bench 1.0: Benchmarking AI Agents on Workspace Tasks with Large-Scale File Dependencies
构建2万文件级别的真实工作区基准,评估代理的跨文件依赖推理能力,最佳代理仅达68.7%
- 作者: Zirui Tang et al.
- 来源: HuggingFace (5 upvotes)
- 链接: arXiv | PDF
- 关键贡献: 构建含5个工人画像、74种文件类型、20476个文件(最高20GB)的真实工作区基准,策划388个任务,每个任务附带文件依赖图;评估4个代理框架和7个基座模型,最佳代理仅68.7%远低于人类的80.7%,平均仅47.4%。
- 相关技术: workspace learning, file dependency reasoning, cross-file retrieval, adaptive decision-making, realistic workspace construction
- 代码/权重: 未提及
📄 Abstract 中文翻译
工作区学习要求AI代理识别、推理、利用和更新工作者工作区中异构文件之间的显式和隐式依赖关系,使其能够有效完成常规和高级任务。尽管其重要性不言而喻,现有相关基准主要在预指定或合成的文件上评估代理,现实依赖有限,使得工作区级评估未被充分探索。为此,我们引入Workspace-Bench,一个评估AI代理在涉及大规模文件依赖的工作区学习上的基准。我们构建了具有5个工人画像、74种文件类型、20476个文件(最高20GB)的真实工作区,并策划388个任务,每个任务有自己的文件依赖图,共7399个评分标准,需要跨文件检索、上下文推理和自适应决策。我们还提供Workspace-Bench-Lite,一个100任务子集,保留基准分布同时降低约70%评估成本。我们评估了4个流行代理框架和7个基座模型。实验结果表明当前代理在可靠的工作区学习上仍远未达标,最佳仅达68.7%,远低于人类的80.7%,代理平均性能仅47.4%。
📌 其他值得关注
RLDX-1 Technical Report
开源通用机器人操作策略,Multi-Stream Action Transformer架构在灵巧操作任务上大幅超越π₀.₅和GR00T
- 作者: Dongyoung Kim et al.
- 来源: HuggingFace Trending (85 upvotes)
- 链接: arXiv | PDF
- 关键贡献: 提出Multi-Stream Action Transformer(MSAT)架构,通过模态特定流和跨模态联合自注意力统一运动感知、记忆决策和物理感知等异构能力;配套MolmoER VLM骨干、720小时双臂遥操作数据集(最大开源双臂数据集)、OpenFAST开放动作tokenizer;MolmoThink自适应深度推理变体仅对变化区域重新预测深度token,大幅降低延迟。
- 相关技术: Multi-Stream Action Transformer, flow-matching action expert, adaptive-depth reasoning, bimanual teleoperation, KV-cache conditioning
- 代码/权重: 已开源 ✅
📄 Abstract 中文翻译
视觉-语言-动作(VLA)模型旨在为机器人提供单一通用控制器,但当前系统在实际部署关键标准上仍有不足。前沿模型闭源,开源替代方案绑定昂贵硬件,推理增强策略为接地付出过高延迟,微调成功率仍低于可靠使用的阈值。我们提出MolmoAct2,一个为实际部署构建的完全开放的动作推理模型,沿五个轴推进其前身。我们引入MolmoER,一个专为空间和具身推理优化的VLM骨干,在330万样本语料上用"先专精再排练"方案训练。我们发布三个新数据集,覆盖低至中等成本平台,包括MolmoAct2-BimanualYAM——720小时遥操作双臂轨迹,构成迄今最大开源双臂数据集——以及质量过滤的Franka(DROID)和SO100/101子集。我们提供OpenFAST,一个在五个具身形态的数百万轨迹上训练的开放权重开放数据动作tokenizer。我们重新设计架构,通过逐层KV-cache条件将flow-matching连续动作专家嫁接到离散token VLM上。最后,我们提出MolmoThink,一个自适应深度推理变体,仅对时间步间变化的场景区域重新预测深度token,以先前延迟的一小部分保留几何接地。在最广泛的开源VLA实证研究中,跨越7个仿真和真实世界基准,MolmoAct2超越了包括Pi-05在内的强基线,而MolmoER在13个具身推理基准上超越了GPT-5和Gemini Robotics ER-1.5。我们发布模型权重、训练代码和完整训练数据。
StableI2I: Spotting Unintended Changes in Image-to-Image Transition
无需参考图像的I2I转换一致性评估框架,显式测量内容保真度和前后一致性
- 作者: Jiayang Li et al.
- 来源: HuggingFace (9 upvotes)
- 链接: arXiv | PDF
- 关键贡献: 指出现有I2I评估聚焦指令遵循和美学,忽略输出图像是否保留输入图像的语义对应和空间结构;提出StableI2I统一动态评估框架,无需参考图像即可显式测量内容保真度和前后一致性,覆盖图像编辑和图像恢复任务。
- 相关技术: content fidelity, pre-post consistency, image-to-image evaluation, multimodal LLM assessment, reference-free evaluation
- 代码/权重: 未提及
📄 Abstract 中文翻译
在大多数真实世界的图像到图像(I2I)场景中,现有评估主要关注指令遵循和生成图像的感知质量或美学。然而,它们很大程度上未能评估输出图像是否保留了输入图像的语义对应和空间结构。为解决这一局限,我们提出StableI2I,一个统一且动态的评估框架,在无需参考图像的情况下显式测量各种I2I任务(包括图像编辑和图像恢复)的内容保真度和前后一致性。此外,我们构建StableI2I-Bench,一个系统评估MLLM在此类保真度和一致性评估任务上准确性的基准。大量实验结果表明,StableI2I提供准确、细粒度且可解释的内容保真度和一致性评估,与人类主观判断具有强相关性。我们的框架作为实用的可靠评估工具,用于诊断内容一致性和在真实世界I2I系统中基准化模型性能。
Lightning Unified Video Editing via In-Context Sparse Attention
首个面向ICL视频编辑的近无损稀疏注意力框架,注意力模块延迟降低60%且超越SOTA
- 作者: Shitong Shao et al.
- 来源: HuggingFace (11 upvotes)
- 链接: arXiv | PDF
- 关键贡献: 发现ICL视频编辑中上下文token显著度远低于源token,且Query锐度与近似误差相关;据此设计ISA稀疏注意力——预选策略剪枝冗余上下文+动态查询分组将高误差查询路由到全注意力、低误差到0阶Taylor稀疏注意力;构建LIVEditor模型配合1.7M高质量数据集。
- 相关技术: in-context sparse attention, Taylor sparse attention, query grouping, video editing, context token pruning
- 代码/权重: 未提及
📄 Abstract 中文翻译
视频编辑已向上下文学习(ICL)范式演进,但由此产生的二次注意力成本造成了关键的计算瓶颈。本文提出In-context Sparse Attention(ISA),首个为ICL视频编辑量身定制的近无损经验稀疏框架。我们的设计基于两个关键洞察:首先,上下文token的显著度远低于源token;其次,我们从理论上证明并实验验证Query锐度与近似误差相关。基于这些发现,ISA实现了一个高效的预选策略来剪枝冗余上下文,随后是动态查询分组机制,将高误差查询路由到全注意力,低误差查询路由到计算高效的0阶Taylor稀疏注意力。此外,我们构建了LIVEditor,一个通过ISA和提出的视频编辑数据流水线(策划了1.7M高质量数据集)的新型闪电视频编辑模型。大量实验表明LIVEditor实现了约60%的注意力模块延迟降低,同时在EditVerseBench、IVE-Bench和VIE-Bench上超越最先进方法,提供近无损加速而不损害视觉保真度。
Parameter-Efficient Multi-View Proficiency Estimation: From Discriminative Classification to Generative Feedback
多视角技能水平估计:从判别式分类到生成式反馈,用20倍更少参数达到SOTA
- 作者: Edoardo Bianchi, Antonio Liotta
- 来源: HuggingFace (3 upvotes)
- 链接: arXiv | PDF
- 关键贡献: 讨论多视角技能水平估计的三个贡献——SkillFormer参数高效判别架构实现选择性多视角融合;PATS通过保留局部密集运动摘录改进时间采样;ProfVLM将技能水平估计重构为条件语言生成,通过门控跨视角投影器产出技能标签和专家风格反馈。整体以20倍更少可训练参数和3倍更少训练epoch达到SOTA。
- 相关技术: multi-view fusion, proficiency estimation, conditional language generation, gated cross-view projector, selective temporal sampling
- 代码/权重: 未提及
📄 Abstract 中文翻译
估计一个人执行动作的好坏程度——而非执行哪个动作——是教练、康复和人才识别的核心。这一任务具有挑战性,因为技能水平编码在时间、平衡、身体力学和执行的细微差异中,通常分布在多个视角和短暂的时序事件中。我们讨论了多视角技能水平估计在Ego-Exo4D上的三个最新贡献。SkillFormer引入了用于选择性多视角融合的参数高效判别架构;PATS通过保留基本运动的局部密集摘录来改进时间采样;ProfVLM将技能水平估计重构为条件语言生成,通过门控跨视角投影器和紧凑语言骨干产出技能标签和专家风格反馈。这些方法共同在Ego-Exo4D上达到最先进准确率,可训练参数减少高达20倍,训练epoch减少高达3倍,同时从闭集分类向可解释反馈生成转变。这些结果突显了向高效多视角系统转变的趋势,结合选择性融合、技能感知采样和可操作的生成反馈。
Generated on 2026-05-08 00:00 UTC | Sources: HuggingFace