今日概览
共收录 29 篇论文 | Audio LLM: 3篇 | LLM Training: 17篇 | AI Agents: 3篇 | 其他值得关注: 6篇 来源: HuggingFace(29) | arXiv(0)
重点推荐 ⭐
Qwen-Image-2.0 Technical Report
统一生成与编辑的全能图像生成基础模型,超长文本渲染和多语言排版大幅提升
- 作者: Bing Zhao, Chenfei Wu, Deqing Li et al.
- 来源: HuggingFace Trending (70 upvotes)
- 链接: arXiv | PDF
- 关键贡献: 将 Qwen3-VL 作为条件编码器与多模态 Diffusion Transformer 耦合,支持最长 1K token 指令生成幻灯片、海报、漫画等文本密集内容,多语言文本保真度和排版质量显著提升,同时增强照片级真实感和复杂 prompt 跟随能力。
- 相关技术: multimodal diffusion transformer, text rendering, image editing, condition encoder
- 代码/权重: 未提及
📄 Abstract 中文翻译
我们发布 Qwen-Image-2.0,一个全能图像生成基础模型,在单一框架内统一了高保真生成与精确图像编辑。尽管最近取得进展,现有模型仍在超长文本渲染、多语言排版、高分辨率真实感、鲁棒的指令跟随和高效部署方面存在困难,尤其是在文本密集和组合复杂场景中。Qwen-Image-2.0 通过将 Qwen3-VL 作为条件编码器与多模态 Diffusion Transformer 进行联合条件-目标建模来解决这些挑战,并依托大规模数据策划和定制化多阶段训练管线。这使得模型在保持灵活生成和编辑能力的同时具备强大的多模态理解。模型支持最长 1K token 的指令,用于生成幻灯片、海报、信息图和漫画等文本密集内容,同时显著改善多语言文本保真度和排版质量。它还增强了照片级真实感生成,提供更丰富的细节、更真实的纹理和连贯的光照,并在多种风格下更可靠地跟随复杂 prompt。广泛的人工评估表明,Qwen-Image-2.0 在生成和编辑两方面都大幅超越先前的 Qwen-Image 模型,标志着向更通用、可靠和实用的图像生成基础模型迈出了一步。
TMAS: Scaling Test-Time Compute via Multi-Agent Synergy
多智能体协作的测试时计算扩展框架,通过层级记忆实现跨轨迹信息复用
- 作者: George Wu, Nan Jing, Qing Yi et al.
- 来源: HuggingFace Trending (43 upvotes)
- 链接: arXiv | PDF
- 关键贡献: 提出 TMAS 框架,将推理组织为专业智能体间的协作过程,引入经验库(复用低级中间结论)和指南库(记录高级策略)两层层级记忆,配合混合奖励 RL 方案,在多个推理基准上实现比现有测试时扩展方法更强的迭代缩放效果。
- 相关技术: test-time scaling, multi-agent collaboration, hierarchical memory, hybrid reward RL
- 代码/权重: 已开源 ✅ GitHub
📄 Abstract 中文翻译
测试时扩展已成为通过在推理期间分配额外计算来提升大语言模型推理能力的有效范式。近期的结构化方法通过跨多轨迹、多轮精炼和基于验证的反馈组织推理,进一步推进了该范式。然而,现有的结构化测试时扩展方法要么对并行推理轨迹的协调较弱,要么依赖噪声历史信息而不显式决定应保留和复用什么,限制了平衡探索与利用的能力。本文提出 TMAS,一个通过多智能体协作扩展测试时计算的框架。TMAS 将推理组织为专业智能体间的协作过程,实现跨智能体、轨迹和精炼迭代的结构化信息流。为支持有效的跨轨迹协作,TMAS 引入层级记忆:经验库复用低级可靠的中间结论和局部反馈,指南库记录先前探索过的高级策略以引导后续 rollout 避开冗余推理模式。此外,我们设计了针对 TMAS 的混合奖励强化学习方案,联合保持基本推理能力、增强经验利用和鼓励超越已有解法的探索。在多个挑战性推理基准上的广泛实验表明,TMAS 实现了比现有测试时扩展基线更强的迭代缩放效果,混合奖励训练进一步提升了跨迭代的缩放效果和稳定性。代码和数据可在 https://github.com/george-QF/TMAS-code 获取。
Soohak: A Mathematician-Curated Benchmark for Evaluating Research-level Math Capabilities of LLMs
由 64 位数学家全新编写的 439 道研究级数学基准,暴露前沿模型在拒绝识别病态问题上的严重不足
- 作者: Guijin Son, Seungone Kim, Catherine Arnett et al.
- 来源: HuggingFace Trending (62 upvotes)
- 链接: arXiv | PDF
- 关键贡献: 由 64 位数学家全新编写 439 道研究级数学题,包含挑战子集和拒绝子集(探测模型识别病态问题的能力)。Gemini-3-Pro 仅达 30.4%,所有模型在拒绝子集上不超过 50%,揭示「拒绝」作为新的优化目标。
- 相关技术: research-level math benchmark, refusal detection, problem contamination, olympiad reasoning
- 代码/权重: 数据集 2026 年底公开发布
📄 Abstract 中文翻译
继前沿 LLM 近期在 IMO 上达到金牌水平后,社区正在寻找下一个衡量 LLM 推理的有意义且具挑战性的目标。奥赛风格的问题仅衡量逐步推理,而研究级问题则利用这种推理推进数学知识本身的边界,因此成为一个引人注目的替代方案。然而研究级数学基准仍然稀缺,因为这类问题难以获取(例如 Riemann Bench 和 FrontierMath-Tier 4 分别仅含 25 和 50 道题)。为支持下一代前沿模型的可靠评估,我们推出 Soohak,一个由 64 位数学家全新编写的 439 道题基准。Soohak 包含两个子集。在挑战子集上,Gemini-3-Pro、GPT-5 和 Claude-Opus-4.5 分别达到 30.4%、26.4% 和 10.4%,留有大量提升空间,而领先的开放权重模型如 Qwen3-235B、GPT-OSS-120B 和 Kimi-2.5 仍低于 15%。值得注意的是,超越标准问题求解,Soohak 引入了拒绝子集,探测研究数学固有的能力:识别病态问题并暂停而非产出自信但无依据的答案。在该子集上,没有模型超过 50%,将「拒绝」识别为当前模型未直接应对的新优化目标。为防止数据污染,数据集将于 2026 年底公开发布,期间模型评估可应请求提供。
🔊 Audio LLM
Meow-Omni 1: A Multimodal Large Language Model for Feline Ethology
首个面向动物行为学的开源四模态 MLLM,融合视频、音频、生理信号和文本
- 作者: Jucheng Hu, Zhangquan Chen, Yulin Chen et al.
- 来源: HuggingFace
- 链接: arXiv | PDF
- 关键贡献: 首个开源四模态(视频+音频+生理时序+文本)MLLM,原生融合科学编码器到统一骨干,通过生理学基础的跨模态对齐实现意图推理。在 MeowBench 上达到 71.16% 意图识别准确率,大幅超越视觉语言和全模态基线。
- 相关技术: quad-modal fusion, physiological time-series encoding, cross-modal alignment, computational ethology
- 代码/权重: 已开源 ✅(模型权重、训练框架、Meow-10K 数据集)
📄 Abstract 中文翻译
解读动物意图是计算行为学中的根本挑战,很大程度上因为语义混叠现象——相同的外部信号(如猫的呼噜声)根据生理上下文对应截然不同的内部状态。现有多模态大语言模型无法感知高频生物时序数据,限制了它们只能进行表面的行为模式匹配,而非真正的潜在状态推理。为弥合这一差距,我们推出 Meow-Omni 1,首个专为计算行为学构建的开源四模态 MLLM。它原生融合视频、音频和生理时序流与文本推理。通过针对性架构适配,我们将专业科学编码器集成到统一骨干中,并通过生理学基础的跨模态对齐形式化意图推理。在 MeowBench(一个全新的、经专家验证的四模态基准)上,Meow-Omni 1 达到最先进的意图识别准确率(71.16%),大幅超越领先的视觉语言和全模态基线。我们发布完整的开源管线,包括模型权重、训练框架和 Meow-10K 数据集,以建立跨物种意图理解的可扩展范式,推动基础模型向现实世界兽医诊断和野生动物保护发展。
Omni-Persona: Systematic Benchmarking and Improving Omnimodal Personalization
首个全模态个性化基准,跨文本、图像、音频的 Persona 路由评测,揭示音频-视觉接地差距
- 作者: Yeongtak Oh, Dongwook Lee, Sangkwon Park et al.
- 来源: HuggingFace Trending (4 upvotes)
- 链接: arXiv | PDF
- 关键贡献: 首个统一覆盖文本、图像、音频的全模态个性化基准,提出校准准确率(Cal)指标同时奖励正确接地和适当弃权。发现开源模型存在一致的音频-视觉接地差距,RLVR 部分缩小但引入保守行为,SFT 受标注瓶颈限制。
- 相关技术: omnimodal personalization, persona modality graph, calibrated accuracy, absent-persona hallucination
- 代码/权重: 未提及
📄 Abstract 中文翻译
虽然多模态大语言模型在文本、图像和音频方面取得了进展,但个性化研究仍主要集中在视觉-语言领域,联合覆盖文本、图像和音频的统一全模态基准仍然有限,且缺乏考虑缺席 persona 场景或系统接地研究的方法论严谨性。我们推出 Omni-Persona,首个全模态个性化综合基准。我们将任务形式化为 Persona 模态图上的跨模态路由,涵盖 4 个任务组和 18 个细粒度任务,约 750 个项目。为严格诊断接地行为,我们提出校准准确率(Cal),联合奖励正确接地和适当弃权,在统一评估框架中纳入缺席 persona 查询。在我们的专项实验中,三个诊断发现浮现:(i)开源模型存在一致的音频-视觉接地差距,RLVR 通过密集规则监督部分缩小该差距;(ii)可回答召回率和参数规模是不完整的诊断指标,因为强召回可伴随缺席 persona 幻觉,更大模型不一定达到更高 Cal,暴露校准作为独立评估轴;(iii)SFT 受大规模构建标注真值监督的难度限制,而 RLVR 通过结果级可验证反馈更一致地泛化,但在我们的奖励设计下会趋向保守行为和更低生成质量。Omni-Persona 因此作为诊断框架揭示全模态个性化的陷阱,指导未来的后训练和奖励设计。
Omni-DeepSearch: A Benchmark for Audio-Driven Omni-Modal Deep Search
从音频出发主动搜索跨模态证据的深度搜索基准,最强模型仅达 43.44%
- 作者: Tao Yu, Yiming Ding, Shenghua Chai et al.
- 来源: HuggingFace
- 链接: arXiv | PDF
- 关键贡献: 首个音频驱动的全模态深度搜索基准,要求模型从音频推断线索、调用文本/图像/视频搜索工具并执行多跳推理。640 个样本覆盖 15 个细粒度类别,最强模型 Gemini-3-Pro 仅达 43.44%。
- 相关技术: audio-driven search, multimodal agent, multi-hop reasoning, cross-modal verification
- 代码/权重: 未提及
📄 Abstract 中文翻译
当前全模态基准主要评估在多模态同时提供场景下的模型,而从音频出发主动搜索跨模态证据的能力仍未被充分探索。本文提出 Omni-DeepSearch,一个音频驱动的全模态深度搜索基准。给定一段或多段音频及相关问题,模型必须从音频推断有用线索、调用文本/图像/视频搜索工具,并执行多跳推理以产出简短、客观、可验证的答案。Omni-DeepSearch 包含 640 个样本,覆盖 15 个细粒度类别、四种检索目标模态和四种音频内容类型。多阶段过滤管线确保音频依赖性、检索必要性、视觉模态必要性和答案唯一性。在近期闭源和开源全模态模型上的实验表明该任务仍然极具挑战性:最强评估模型 Gemini-3-Pro 仅达 43.44% 平均准确率。进一步分析揭示了音频实体推断、查询构造、工具使用可靠性、多跳检索和跨模态验证中的关键瓶颈。这些结果凸显音频驱动全模态深度搜索作为未来多模态智能体的重要且未被充分探索的方向。
🧠 LLM Training
PaperFit: Vision-in-the-Loop Typesetting Optimization for Scientific Documents
视觉闭环排版优化智能体,自动诊断 LaTeX 论文排版缺陷并迭代修复
- 作者: Bihui Yu, Xinglong Xu, Junjie Jiang et al.
- 来源: HuggingFace Trending (28 upvotes)
- 链接: arXiv | PDF
- 关键贡献: 形式化视觉排版优化(VTO)任务,定义五类排版缺陷分类法。PaperFit 智能体迭代渲染页面、诊断缺陷、施加约束修复。构建 PaperFit-Bench(200 篇论文、10 种会议模板、13 种缺陷类型),大幅超越所有基线。
- 相关技术: vision-in-the-loop agent, LaTeX typesetting, document automation, visual verification
- 代码/权重: 未提及
📄 Abstract 中文翻译
能无错编译的 LaTeX 稿件未必达到发表标准。生成的 PDF 常出现浮动体错位、公式溢出、表格缩放不一致、孤行寡行和页面平衡差等问题,迫使作者反复编译-检查-编辑。基于规则的工具无法感知渲染效果,仅操作源代码和日志文件。纯文本 LLM 执行开环文本编辑,无法预测或验证二维排版后果。可靠的排版优化因此需要视觉闭环,在每次编辑后进行验证。我们将此问题形式化为视觉排版优化(VTO),即通过迭代视觉验证和源码级修订,将可编译的 LaTeX 论文转化为视觉精良、符合页码预算的 PDF 的任务,并引入五类排版缺陷分类法指导诊断。我们提出 PaperFit,一个视觉闭环智能体,迭代渲染页面、诊断缺陷并施加约束修复。为基准测试 VTO,我们构建 PaperFit-Bench,包含 200 篇论文,覆盖 10 种会议模板和 13 种缺陷类型的不同难度。广泛实验表明 PaperFit 以大幅优势超越所有基线,证明了从可编译源码到发表级 PDF 需要视觉闭环优化,且 VTO 构成文档自动化管线中关键缺失阶段。
Towards On-Policy Data Evolution for Visual-Native Multimodal Deep Search Agents
视觉原生深度搜索智能体 + 在策略数据进化,8B 模型超越 Gemini-2.5 Pro
- 作者: Shijue Huang, Hangyu Guo, Chenxin Li et al.
- 来源: HuggingFace
- 链接: arXiv | PDF
- 关键贡献: 提出图像库引用协议使中间视觉证据可被后续工具复用,以及 On-policy Data Evolution(ODE)闭环数据生成器随策略进化迭代优化训练数据。Qwen3-VL-8B 在 8 个多模态深度搜索基准上从 24.9% 提升至 39.0%,超越 Gemini-2.5 Pro 的 37.9%。
- 相关技术: image bank reference protocol, on-policy data evolution, multimodal agent, deep search
- 代码/权重: 未提及
📄 Abstract 中文翻译
多模态深度搜索要求智能体通过链式搜索、工具使用和视觉推理来解决开放世界问题。两个瓶颈限制了当前系统。首先,现有工具使用框架将搜索、浏览或变换返回的图像视为瞬态输出,中间视觉证据无法被后续工具再消费。其次,训练数据通常由固定策划方案构建,无法追踪目标智能体不断进化的能力。为解决这些挑战,我们首先引入以图像库引用协议为核心的视觉原生智能体框架,将每个工具返回的图像注册为可寻址引用,使中间视觉证据可被后续工具复用。在此框架之上,On-policy Data Evolution(ODE)运行闭环数据生成器,从被训练策略的 rollout 中跨轮迭代优化自身。这种逐轮精化使每轮数据针对当前策略仍需学习的内容。同一框架同时支持多样化 SFT 数据和策略感知 RL 数据策划,覆盖目标智能体的完整训练生命周期。在 8 个多模态深度搜索基准上,ODE 将 Qwen3-VL-8B 智能体从 24.9% 提升至 39.0%,在标准智能体工作流设置中超越 Gemini-2.5 Pro(37.9%)。在 30B 规模下,ODE 将平均分从 30.6% 提升至 41.5%。进一步分析验证了图像库复用的有效性,特别是在需要迭代视觉精化的复杂任务上。
DECO: Sparse Mixture-of-Experts with Dense-Comparable Performance on End-Side Devices
端侧 MoE 架构,仅激活 20% 专家即可匹配稠密模型性能,推理加速 3 倍
- 作者: Chenyang Song, Weilin Zhao, Xu Han et al.
- 来源: HuggingFace
- 链接: arXiv | PDF
- 关键贡献: 提出基于 ReLU 可微路由 + 可学习专家级缩放的 MoE 架构 DECO,引入 NormSiLU 激活函数提升路由稀疏性稳定性,发现非门控 MLP 专家 + ReLU 路由的简化优势。仅激活 20% 专家即匹配稠密性能,专用加速核实现 3 倍推理加速。
- 相关技术: sparse MoE, ReLU-based routing, NormSiLU activation, expert-wise scaling
- 代码/权重: 即将开源
📄 Abstract 中文翻译
虽然混合专家模型在不按比例增加计算的情况下扩展了模型容量,但其巨大的总参数占用量造成了显著的存储和内存访问瓶颈,阻碍了同时要求高性能、低计算成本和小存储开销的端侧高效部署。为实现这些特性,我们提出 DECO,一种稀疏 MoE 架构,旨在相同总参数预算和训练 token 下匹配稠密 Transformer 的性能。DECO 利用基于 ReLU 的可微分灵活路由,通过可学习专家级缩放增强,自适应平衡路由专家和共享专家的贡献。此外,我们引入 NormSiLU 激活函数,在 SiLU 运算前对输入进行归一化,产生更稳定的路由专家激活比例趋势和更高的内在稀疏水平。我们还发现了使用非门控 MLP 专家配合 ReLU 路由的经验优势,表明 MoE 架构简化的可能性。实验表明,DECO 仅激活 20% 专家即匹配稠密性能并超越已有 MoE 基线。专用加速核相比稠密推理在真实硬件上实现 3 倍加速。
WorldReasonBench: Human-Aligned Stress Testing of Video Generators as Future World-State Predictors
视频生成器的世界推理压力测试基准,揭示视觉逼真度与世界推理之间的持久鸿沟
- 作者: Keming Wu, Yijing Cui, Wenhan Xue et al.
- 来源: HuggingFace Trending (23 upvotes)
- 链接: arXiv | PDF
- 关键贡献: 将视频生成评估重构为世界状态预测任务,436 个测试用例覆盖四个推理维度和 22 个子类。发现视频可以看起来逼真但在动力学、因果性或信息保持上失败。
- 相关技术: world-state prediction, video generation benchmark, process-aware verification, preference modeling
- 代码/权重: 即将开源 ✅ GitHub
📄 Abstract 中文翻译
商业视频生成系统如 Seedance2.0 和 Veo3.1 已迅速改进,强化了视频生成器可能正在进化为"世界模拟器"的观点。然而社区仍缺乏直接测试模型能否推理观测世界应如何随时间演变的基准。我们提出 WorldReasonBench,将视频生成评估重构为世界状态预测:给定初始状态和动作,模型能否生成物理、社会、逻辑和信息上一致的未来视频?WorldReasonBench 包含 436 个精选测试用例,配有结构化真值 QA 标注,覆盖四个推理维度和 22 个子类。我们使用人齐对齐的两部分方法论评估生成视频:过程感知推理验证使用结构化 QA 和推理阶段诊断检测时序和因果失败,多维质量评估对推理质量、时序一致性和视觉美学评分以支持排序和奖励建模。我们进一步引入 WorldRewardBench,一个包含约 6K 专家标注对、1.4K 视频的偏好基准。在现代视频生成器上,我们的结果揭示了视觉逼真度和世界推理之间的持久鸿沟:视频可以看起来可信但在动力学、因果性或信息保持上失败。
Reinforcing Multimodal Reasoning Against Visual Degradation
ROMA 框架:双前向传播策略增强视觉退化鲁棒性,同时保持干净输入性能
- 作者: Rui Liu, Dian Yu, Haolin Liu et al.
- 来源: HuggingFace Trending (4 upvotes)
- 链接: arXiv | PDF
- 关键贡献: 通过双前向传播策略(教师强制在干净图像轨迹上评估退化视图)避免奖励中毒,配合 token 级替代 KL 惩罚和正确性条件正则化。在 Qwen3-VL 4B/8B 上已见退化 +2.4%,未见退化 +2.3%。
- 相关技术: visual degradation robustness, dual forward pass, token-level KL penalty, correctness-conditioned regularization
- 代码/权重: 未提及
📄 Abstract 中文翻译
强化学习显著提升了多模态大语言模型的推理能力,但所得到的策略对模糊、压缩伪影和低分辨率扫描等现实视觉退化仍然脆弱。来自视觉和深度 RL 的先前鲁棒性技术依赖静态数据增强或基于价值的正则化,两者都不能干净地迁移到自回归 MLLM 的无评论家 RL 微调。针对这些退化强化推理并不简单:在 rollout 期间注入退化视图会引发奖励中毒,其中感知遮挡触发幻觉轨迹并破坏优化稳定性。我们提出 ROMA,一种 RL 微调框架,修改优化动态以在保持干净输入性能的同时强化对视觉退化的推理鲁棒性。双前向传播策略使用教师强制在干净图像轨迹上评估退化视图,避免在退化输入上做新 rollout。为保持分布一致性,我们对最坏情况增强施加 token 级替代 KL 惩罚;为防止正则化下的策略崩溃,一个锚定于干净图像优势的辅助策略梯度损失保留可靠的奖励信号;为避免系统性的不正确不变性,正确性条件正则化将执行限制于成功轨迹。在 Qwen3-VL 4B/8B 上跨七个多模态推理基准,我们的方法在已见退化上比 GRPO 提升 +2.4%,在未见退化上 +2.3%,同时匹配干净准确率。
Verifiable Process Rewards for Agentic Reasoning
将符号验证器转化为密集回合级 RL 监督信号,改善长程智能体推理的信用分配
- 作者: Huining Yuan, Zelai Xu, Huaijie Wang et al.
- 来源: HuggingFace
- 链接: arXiv | PDF
- 关键贡献: 提出可验证过程奖励(VPR),将符号/算法预言机转化为 RL 的密集回合级监督,在搜索验证、约束验证和后验验证三种场景中实例化。不仅超越结果级奖励基线,还迁移到通用和智能体推理基准。
- 相关技术: verifiable process reward, dense turn-level supervision, credit assignment, symbolic oracle
- 代码/权重: 未提及
📄 Abstract 中文翻译
来自可验证奖励的强化学习(RLVR)已提升大语言模型的推理能力,但大多数现有方法依赖稀疏的结果级反馈。这种稀疏性在长程智能体推理中造成信用分配挑战:一条轨迹可能失败但包含许多正确的中间决策,或者成功但包含有缺陷的决策。本文研究一类密集可验证的智能体推理问题,其中中间动作可通过符号或算法预言机客观检验。我们提出可验证过程奖励(VPR),将此类预言机转化为强化学习的密集回合级监督,并在三种代表性场景中实例化:用于动态推理的搜索验证、用于逻辑推理的约束验证和用于概率推断的后验验证。我们进一步提供理论分析,表明密集验证器接地奖励可通过提供更局部的学习信号改善长程信用分配,其收益取决于验证器的可靠性。实验上,VPR 在受控环境中超越结果级奖励和基于 rollout 的过程奖励基线,更重要的是迁移到通用和智能体推理基准,表明可验证过程监督可培养超出训练环境的通用推理技能。结果表明 VPR 是一种在可靠中间验证可用时增强 LLM 智能体的有前途方法,同时也凸显其对预言机质量的依赖和向较少结构化开放环境扩展的开放挑战。
Model Merging Scaling Laws in Large Language Models
模型合并的幂律缩放法则:大多数收益来自早期专家,收益约按 1/k 递减
- 作者: Yuanyi Wang, Yanggan Gu, Yiming Zhang et al.
- 来源: HuggingFace Trending (22 upvotes)
- 链接: arXiv | PDF
- 关键贡献: 发现模型合并的紧凑幂律关系——规模依赖的底限随模型容量下降,合并尾部随专家数呈收益递减。提出理论解释收益约为 1/k 下降,使合并从启发式实践变为可规划的替代方案。
- 相关技术: model merging, power law scaling, expert composition, diminishing returns
- 代码/权重: 未提及
📄 Abstract 中文翻译
我们研究以交叉熵衡量的语言模型合并经验缩放法则。尽管合并被广泛实践使用,但它缺乏一个量化规则来预测随着专家增加或模型规模扩大时的回报。我们发现一个紧凑的幂律联系模型规模和专家数量:规模依赖底限随模型容量降低,而合并尾部在专家数量上呈现明显的收益递减。该法则在域内和跨域设置下均成立,紧密拟合不同架构和方法(Average、TA、TIES、DARE)的测量曲线,并解释了两个稳健规律:大多数收益来自早期,且随着专家增多变异性缩小。在此基础上,我们提出简单理论解释收益为何约按 1/k 下降,并将底限和尾部与基础模型属性和跨域多样性联系起来。该法则使得预测性规划成为可能:估算达到目标损失需要多少专家、决定何时停止添加专家,以及在固定预算下权衡扩大基础模型还是添加专家——将合并从启发式实践转变为计算高效、可规划的替代方案。
Crosslingual On-Policy Self-Distillation for Multilingual Reasoning
跨语言在策略自蒸馏:将高资源语言推理能力迁移到低资源语言
- 作者: Yihong Liu, Raoyuan Zhao, Michael A. Hedderich et al.
- 来源: HuggingFace
- 链接: arXiv | PDF
- 关键贡献: 提出 COPSD,用同一模型同时作为学生和教师——学生仅看低资源问题,教师接收跨语言上下文。在 17 种低资源非洲语言上持续改善数学推理,大幅超越 GRPO。
- 相关技术: crosslingual self-distillation, multilingual reasoning, on-policy training, low-resource NLP
- 代码/权重: 已开源 ✅ GitHub
📄 Abstract 中文翻译
大语言模型在数学推理方面取得了显著进展,但这种能力在各语言间并不均等。尤其低资源语言表现出更低的推理性能。为此,我们提出跨语言在策略自蒸馏(COPSD),将模型自身的高资源推理行为迁移到低资源语言。COPSD 使用同一模型作为学生和教师:学生仅看到低资源问题,而教师接收特权的跨语言上下文,包括问题翻译和英文参考解。训练最小化学生自身 rollout 上的全分布 token 级散度,提供密集监督同时避免仅结果强化学习的稀疏性和不稳定性。在 17 种低资源非洲语言上的实验表明,COPSD 在不同模型规模下持续改善低资源数学推理,并大幅超越 GRPO。进一步分析表明 COPSD 改善答案格式遵循、增强测试时缩放、泛化到更难的多语言推理基准,对更低资源语言增益尤为显著。
CollabVR: Collaborative Video Reasoning with Vision-Language and Video Generation Models
VLM-VGM 协作视频推理闭环,步级粒度监督大幅提升视频生成推理能力
- 作者: Joowon Kim, Seungho Shin, Joonhyung Park et al.
- 来源: HuggingFace Trending (49 upvotes)
- 链接: arXiv | PDF
- 关键贡献: 提出 VLM-VGM 协作闭环框架 CollabVR,VLM 在步级粒度与 VGM 耦合:规划下一步动作、检查 VGM 生成的片段、将验证器诊断直接融入下个动作提示。在 Gen-ViRe 和 VBVR-Bench 上均超越基线,且与推理微调 VGM 正交可叠加。
- 相关技术: VLM-VGM collaboration, closed-loop video reasoning, step-level supervision, test-time scaling
- 代码/权重: 项目页面 https://joow0n-kim.github.io/collabvr-project-page
📄 Abstract 中文翻译
近期的"Thinking with Video"方法使用视频生成模型(VGM)进行视觉推理,产生时间连贯的帧链作为推理产物。然而即使强 VGM 也在目标导向任务上表现出两种反复失败模式:多步任务上的长程漂移和片段内的模拟误差累积。两者均源于缺乏在 VGM 短程视觉先验之上构建的显式推理——这一角色自然由视觉语言模型(VLM)承担,但 VLM 的放置位置非平凡:前置计划在任何帧生成前就承诺,事后批评对整个视频干预太晚。我们提出 VLM-VGM 协作视频推理(CollabVR),一个闭环框架,在步级粒度耦合 VLM 与 VGM:VLM 规划即时下一步动作,检查 VGM 生成的片段,并将验证器诊断直接融入下个动作提示以修复检测到的失败。在 Gen-ViRe 和 VBVR-Bench 上,CollabVR 在匹配计算下超越单次推理、Pass@k 和先前测试时缩放基线,最大增益在最难任务上。它还在推理微调 VGM 之上产生进一步改进,表明步级 VLM 监督与推理导向微调正交且可叠加。
Rebellious Student: Reversing Teacher Signals for Reasoning Exploration with Self-Distilled RLVR
反转教师信号:在学生成功但教师不会预测的 token 上强化,实现 RLVR 中的定向探索
- 作者: Jeonghye Kim, Jiwon Jeon, Dongsheng Li et al.
- 来源: HuggingFace Trending (11 upvotes)
- 链接: arXiv | PDF
- 关键贡献: 发现自蒸馏在学生成功轨迹上反而覆盖学生自身推理,提出 RLRT——反转教师信号,在学生成功但教师不会预测的 token 上强化。在 Qwen3 各检查点上大幅超越自蒸馏和探索基线,确立信息不对称为 RLVR 的新设计轴。
- 相关技术: self-distillation, RLVR, information asymmetry, exploration, reversed teacher signal
- 代码/权重: 未提及
📄 Abstract 中文翻译
自蒸馏已成为 LLM 后训练的强大框架,其中以额外信息为条件的教师引导没有该信息的学生,两者来自同一模型。虽然这种引导在学生失败时有用,但在成功 rollout 上,同一机制反而覆盖学生的选择并抑制其自身推理。因此,我们提出反向读取原始自蒸馏信号:当学生在教师不会预测的路径上成功时,这些 token 反映了其自主推理。在此基础上,我们提出 RLRT(带反转教师的 RLVR),通过在正确 rollout 上强化这些 token 来增强 GRPO。我们将其解释为 RLVR 中探索的新形式:不是均匀多样性,而是基于学生自身成功的有价值探索。在基础、指令微调和思维微调的 Qwen3 检查点上,RLRT 大幅超越自蒸馏和探索基线,确立信息不对称为 RLVR 的新原则性设计轴。
DeepRefine: Agent-Compiled Knowledge Refinement via Reinforcement Learning
基于强化学习的智能体知识库精化,通过溯因诊断和增量更新提升知识质量
- 作者: Haoyu Huang, Jiaxin Bai, Shujie Liu et al.
- 来源: HuggingFace
- 链接: arXiv | PDF
- 关键贡献: 提出 DeepRefine,通用 LLM 推理模型用于智能体知识库精化。通过多轮交互和溯因诊断定位缺陷,执行定向精化动作。引入 Gain-Beyond-Draft(GBD)奖励,端到端 RL 训练无需金标准参考。
- 相关技术: knowledge refinement, abductive diagnosis, reinforcement learning, agent-compiled KB
- 代码/权重: 未提及
📄 Abstract 中文翻译
智能体编译的知识库为开放域、知识密集型下游任务中的 LLM 智能体提供持久外部知识。但其质量系统性地受不完整性、不正确性和冗余性限制,表现为缺失证据或跨文档链接、低置信度或不精确声明、以及歧义或共指消解问题。这些缺陷在迭代使用下累积,降低检索保真度和下游任务性能。我们提出 DeepRefine,一个通用 LLM 推理模型用于智能体编译的知识精化,通过用户查询改善任何预构建知识库的质量使其更适合下游任务。DeepRefine 与知识库执行多轮交互,对交互历史进行溯因诊断,定位可能缺陷并执行定向精化动作进行增量知识库更新。为在无金标准参考下优化精化策略,我们引入 Gain-Beyond-Draft(GBD)奖励并通过强化学习端到端训练推理过程。广泛实验表明,DeepRefine 在下游任务上产生一致的增益。
G-Zero: Self-Play for Open-Ended Generation from Zero Data
无需外部验证器的共进化自博弈框架,通过 Hint-δ 内在奖励实现开放域自主提升
- 作者: Chengsong Huang, Haolin Liu, Tong Zheng et al.
- 来源: HuggingFace Trending (13 upvotes)
- 链接: arXiv | PDF
- 关键贡献: 提出 Hint-δ 内在奖励量化生成器无辅助响应与带提示响应间的预测偏移,训练提议者通过 GRPO 瞄准生成器盲区,生成器通过 DPO 内化提示引导的改进。无需外部评审,绕过能力天花板。
- 相关技术: self-play, intrinsic reward, co-evolutionary framework, DPO, GRPO
- 代码/权重: 未提及
📄 Abstract 中文翻译
自进化 LLM 在可验证领域表现出色,但在开放域任务中挣扎,因为依赖代理 LLM 评审引入能力瓶颈和奖励黑客。为克服这一点,我们引入 G-Zero,一个无验证器的共进化框架用于自主自我改进。我们的核心创新是 Hint-δ,一种内在奖励,量化生成器模型的无辅助响应与其以自生成提示为条件的响应之间的预测偏移。使用此信号,提议者模型通过 GRPO 训练以持续瞄准生成器的盲区,合成挑战性查询和信息性提示。生成器同时通过 DPO 优化以内化这些提示引导的改进。理论上,我们证明了 G-Zero 理想化标准 DPO 版本的最佳迭代次优保证,前提是提议者产生足够的探索覆盖且数据过滤保持伪标签分数噪声较低。通过完全从内部分布动态推导监督,G-Zero 绕过外部评审的能力天花板,为不可验证域中持续 LLM 自进化提供可扩展、稳健的路径。
Geometry Conflict: Explaining and Controlling Forgetting in LLM Continual Post-Training
几何冲突解释持续后训练遗忘,提出无数据 Wasserstein 合并方法控制更新集成
- 作者: Yuanyi Wang, Yifan Yang, Su Lu et al.
- 来源: HuggingFace Trending (23 upvotes)
- 链接: arXiv | PDF
- 关键贡献: 发现遗忘源于任务协方差几何与演化模型状态的失配。提出 GCWM 无数据更新集成方法,通过高斯 Wasserstein 重心构建共享度量,用几何冲突门控修正。在 Qwen3 0.6B-14B 上持续超越无数据基线。
- 相关技术: continual post-training, geometry conflict, Wasserstein merging, catastrophic forgetting
- 代码/权重: 未提及
📄 Abstract 中文翻译
持续后训练旨在用新知识、技能和行为扩展大语言模型,但尚不清楚顺序更新何时实现能力迁移,何时导致灾难性遗忘。现有方法通过顺序微调、回放、正则化或模型合并缓解遗忘,但缺乏确定何时纳入新更新有益或有害的判据。本文通过三个问题研究 LLM 持续后训练:什么驱动遗忘?顺序获得的能力何时迁移或干扰?如何用兼容性控制更新集成?我们通过任务几何回答:用参数更新表示每个后训练任务,研究更新诱导的协方差几何。核心发现是:遗忘可视为状态相对的更新集成失败,当任务诱导的协方差几何与演化模型状态的几何失对齐时产生。当顺序更新与先前更新塑造的模型状态保持兼容时发生迁移,当状态相对几何冲突变高时产生干扰。基于此发现,我们提出几何冲突 Wasserstein 合并(GCWM),一种无数据更新集成方法,通过高斯 Wasserstein 重心构建共享 Wasserstein 度量,用几何冲突门控几何感知修正。在 Qwen3 0.6B-14B 的域持续和能力持续设置上,GCWM 一致超越无数据基线,无需回放数据即可改善保留和最终性能。
Self-ReSET: Learning to Self-Recover from Unsafe Reasoning Trajectories
纯 RL 框架让推理模型从自身安全错误轨迹中自我恢复
- 作者: Dongcheng Zhang, Yi Zhang, Yuxin Chen et al.
- 来源: HuggingFace
- 链接: arXiv | PDF
- 关键贡献: 提出 Self-ReSET,将模型自身的安全错误轨迹重用为 RL 初始状态,有效培养自恢复模式,增强对抗 OOD 越狱的鲁棒性同时保持通用能力。
- 相关技术: self-recovery, safety alignment, reinforcement learning, adversarial robustness
- 代码/权重: 已开源 ✅ GitHub
📄 Abstract 中文翻译
大推理模型在通用领域拥有卓越的自纠错能力,但在对抗攻击下常难以从不安全推理轨迹中恢复。现有对齐方法试图通过在包含反思轨迹或对抗前缀的专家数据上微调来缓解此脆弱性。关键的是,这些方法常受限于静态训练数据,不可避免地偏离模型动态的在策略推理轨迹,导致模型难以覆盖其巨大生成空间并学会从自身失败中恢复。为弥合此差距,我们提出 Self-ReSET,一个纯强化学习框架,旨在赋予 LRM 从自身安全错误轨迹中恢复的内在能力,这些轨迹随后被重用为 RL 的初始状态。在多种 LRM 和基准上的广泛实验表明,Self-ReSET 显著增强对抗攻击鲁棒性(尤其是 OOD 越狱提示),同时保持通用能力和高效数据利用。
Count Anything at Any Granularity
多粒度开放世界计数:将计数粒度显式化,构建最大规模计数数据集 KubriCount
- 作者: Chang Liu, Haoning Wu, Weidi Xie
- 来源: HuggingFace
- 链接: arXiv | PDF
- 关键贡献: 将开放世界计数重新定义为多粒度计数,视觉样本指定目标外观,细粒度文本指定五个显式粒度级别。构建 KubriCount 最大最全标注计数数据集。训练 HieraCount 大幅提升多粒度计数准确率。
- 相关技术: multi-grained counting, 3D synthesis, visual exemplar, HieraCount
- 代码/权重: 项目页面 https://verg-avesta.github.io/KubriCount/
📄 Abstract 中文翻译
开放世界物体计数仍然脆弱:尽管视觉语言模型快速进步,可靠地计数用户意图的物体远未解决。我们认为一个核心原因是计数粒度被隐含处理;用户可能指代特定身份、属性、实例类型、类别或抽象概念,但大多数方法将"计数什么"视为单一的类别级匹配问题。本文将开放世界计数重新定义为多粒度计数,其中视觉样本指定目标外观,细粒度文本(可选负提示)指定跨五个显式级别的预期语义粒度。然而,使粒度显式化暴露了关键数据瓶颈:现有计数数据集缺乏验证细粒度提示语义所需的多类别场景、受控干扰物和实例级标注。为此,我们提出首个全自动数据缩放管线,整合可控 3D 合成、一致图像编辑和 VLM 过滤,并使用它构建 KubriCount,迄今最大且标注最全面的计数数据集。系统基准测试揭示 MLLM 和专业计数模型在细粒度区分下均表现出严重的提示跟随失败。受这些发现驱动,我们训练 HieraCount,一个联合利用文本和视觉样本作为互补目标规范的多粒度计数模型。HieraCount 大幅提升多粒度计数准确率,并稳健泛化到挑战性真实世界场景。
LLaVA-UHD v4: What Makes Efficient Visual Encoding in MLLMs?
高效视觉编码方案:ViT 内早期压缩 + 切片编码,视觉编码 FLOPs 降低 55.8%
- 作者: Kechen Fang, Yihua Qin, Chongyi Wang et al.
- 来源: HuggingFace Trending (11 upvotes)
- 链接: arXiv | PDF
- 关键贡献: 发现切片编码持续优于全局编码,提出 ViT 内早期压缩在浅层减少 token。LLaVA-UHD v4 将视觉编码 FLOPs 降低 55.8%,同时匹配甚至超越基线性能。
- 相关技术: visual encoding efficiency, intra-ViT compression, slice-based encoding, high-resolution MLLM
- 代码/权重: 即将开源
📄 Abstract 中文翻译
视觉编码构成多模态大语言模型的主要计算瓶颈,尤其对于高分辨率图像输入。当前做法通常采用全局编码后接 ViT 后压缩。全局编码产生海量 token 序列,而 ViT 后压缩在任何 token 减少之前就承担了 ViT 的完整二次注意力成本。本文沿编码策略和视觉 token 压缩两个维度重新审视这一惯例。首先,对照实验表明切片编码在基准上持续优于全局编码,表明通过切片视图保留局部细节可能比应用全局注意力对细粒度感知更有益。其次,我们引入 ViT 内早期压缩,在浅层 ViT 层减少 token 并大幅降低视觉编码 FLOPs 同时保持下游性能。通过将 ViT 内压缩集成到切片编码框架中,我们提出 LLaVA-UHD v4,一种为高分辨率输入定制的高效、计算可控的视觉编码方案。在涵盖文档理解、OCR 和通用 VQA 的多种基准上,LLaVA-UHD v4 将视觉编码 FLOPs 降低 55.8%,同时匹配甚至超越基线性能。
RoboMemArena: A Comprehensive and Challenging Robotic Memory Benchmark
大规模机器人记忆基准:26 个任务、平均超 1000 步轨迹、68.9% 子任务依赖记忆
- 作者: Huashuo Lei, Wenxuan Song, Huarui Zhang et al.
- 来源: HuggingFace
- 链接: arXiv | PDF
- 关键贡献: 构建 RoboMemArena 26 个大规模任务,提供多模态记忆标注。设计 PrediMem 双系统 VLA,高层 VLM 规划器管理记忆库并使用预测编码头提升任务动态敏感性。
- 相关技术: robotic memory, vision-language-action model, predictive coding, keyframe annotation
- 代码/权重: 未提及
📄 Abstract 中文翻译
记忆是机器人智能的关键组成部分,因为机器人必须依赖过去的观测和动作在部分可观察环境中完成长程任务。然而现有机器人记忆基准仍缺乏记忆形成的多模态标注,任务覆盖和结构复杂性有限,且仅限于仿真而无真实世界评估。我们通过 RoboMemArena 填补此差距,一个 26 个任务的大规模基准,平均轨迹长度超过 1000 步,68.9% 的子任务依赖记忆。生成管线利用视觉语言模型设计和组合子任务,通过原子函数生成完整轨迹,并提供记忆相关标注,包括子任务指令和原生关键帧标注,同时配对的真实世界记忆任务支持物理评估。我们进一步设计 PrediMem,一个双系统 VLA,其中高层 VLM 规划器管理包含最近和关键帧缓冲区的记忆库,并使用预测编码头提升对任务动态的敏感性。在 RoboMemArena 上的广泛实验表明 PrediMem 超越所有基线,并为复杂记忆系统的记忆管理、模型架构和缩放法则提供了洞察。
🤖 AI Agents
EgoMemReason: A Memory-Driven Reasoning Benchmark for Long-Horizon Egocentric Video Understanding
周长自我中心视频的记忆驱动推理基准,最佳模型仅达 39.6% 准确率
- 作者: Ziyang Wang, Yue Zhang, Shoubin Yu et al.
- 来源: HuggingFace
- 链接: arXiv | PDF
- 关键贡献: 提出三种互补记忆类型评估:实体记忆(物体状态演化)、事件记忆(活动回忆和排序)、行为记忆(从稀疏重复观测抽象模式)。500 个问题平均 5.1 段视频证据、25.9 小时记忆回溯。最佳模型仅 39.6%。
- 相关技术: egocentric video, memory-driven reasoning, entity memory, event memory, behavior memory
- 代码/权重: 未提及
📄 Abstract 中文翻译
下一代视觉助手(如智能眼镜、具身智能体和常驻生活记录系统)必须在一整天或更长的连续视觉经验上推理。在超长视频设置中,相关信息稀疏分布在数小时或数天中,使记忆成为根本挑战:模型必须随时间累积信息、回忆先前状态、跟踪时序顺序并抽象重复模式。然而现有的周长视频基准主要设计用于感知和识别,而非需要跨多天整合证据的推理。为填补此差距,我们推出 EgoMemReason,一个通过记忆驱动推理系统评估周长自我中心视频理解的综合基准。EgoMemReason 评估三种互补记忆类型:实体记忆,跟踪物体状态跨天演化变化;事件记忆,回忆和排序分隔数小时或数的活动;行为记忆,从整个周期内稀疏重复观测抽象重复模式。EgoMemReason 包含 500 个问题,覆盖三种记忆类型和六个核心挑战,平均每个问题 5.1 段视频证据和 25.9 小时记忆回溯。我们在 17 种方法上评估,揭示即使最佳模型也仅达 39.6% 整体准确率。进一步分析表明三种记忆类型因不同原因失败,且性能随证据跨越更长时间范围而下降。
Merlin: Deterministic Byte-Exact Deduplication for Lossless Context Optimization in Large Language Model Inference
字节精确去重引擎,高冗余管线输入减少超 71%,处理速度达 8.7 GB/s
- 作者: Sietse Schelpe
- 来源: HuggingFace
- 链接: arXiv | PDF
- 关键贡献: 基于 SIMD 友好的开放寻址扁平哈希集 + xxHash3-64 实现快速字节精确去重。低冗余数据集输入减少 13.9%,高冗余管线减少超 71%。通过 MCP 协议集成,支持零网络拦截安全部署。
- 相关技术: byte-exact deduplication, SIMD hashing, RAG optimization, Model Context Protocol
- 代码/权重: 未提及
📄 Abstract 中文翻译
数据密集型应用,从大规模检索系统到高级数据管线,越来越受高冗余文本语料处理的瓶颈制约。我们推出 Merlin,一个本地优先、不可知、高吞吐量的去重和上下文优化引擎,旨在缓解这些低效。利用高度优化的 SIMD 友好开放寻址扁平哈希集结合 xxHash3-64,Merlin 执行文本段落和数据块的快速字节精确去重。虽然广泛适用于任何文本处理工作流,但其影响在 LLM 生态系统中尤为显著,如检索增强生成(RAG)。我们的实证评估表明,输入减少范围从低冗余数据集的 13.9% 到高冗余管线的超 71%,同时保持绝对数据保真。此外,我们详述了通过模型上下文协议(MCP)的系统集成架构,实现跨主要 IDE 和自主智能体的安全、零网络拦截部署。本文概述了核心算法设计、性能基准和处理高达 8.7 GB/s 持续速度所需的架构原则。
NanoResearch: Co-Evolving Skills, Memory, and Policy for Personalized Research Automation
三层共进化研究自动化框架:技能库、记忆模块和无标签策略学习
- 作者: Jinhang Xu, Qiyuan Zhu, Yujun Wu et al.
- 来源: HuggingFace Trending (4 upvotes)
- 链接: arXiv | PDF
- 关键贡献: 提出三层共进化框架 NanoResearch:技能库将重复操作蒸馏为可复用程序规则,记忆模块维护用户和项目特定经验,无标签策略学习将自由形式反馈转化为规划器参数更新。三层共进化:可靠技能→更丰富记忆→更好规划。
- 相关技术: skill bank, memory module, policy learning, research automation, co-evolution
- 代码/权重: 未提及
📄 Abstract 中文翻译
LLM 驱动的多智能体系统现已能自动化从构思到论文撰写的完整研究管线,但一个根本问题仍然存在:自动化为谁服务?研究者在不同资源配置下运作,持有不同方法论偏好,目标不同输出格式。一个无视这些差异产出统一输出的系统将系统性地欠服务每位用户,使个性化成为研究自动化真正可用的前提条件。然而实现它需要三种当前系统 缺乏的能力:跨项目积累可复用程序知识、跨会话保留用户特定经验、内化难以显式形式化的隐式偏好。我们提出 NanoResearch,一个通过三层共进化解决这些差距的多智能体框架。技能库将重复操作蒸馏为跨项目可复用的紧凑程序规则。记忆模块维护用户和项目特定经验,将规划决策基于每位用户的研究历史。无标签策略学习将自由形式反馈转化为规划器的持久参数更新,重塑后续协调。这三层共进化:可靠技能产生更丰富记忆,更丰富记忆指导更好规划,偏好内化持续重新对齐循环至每位用户。广泛实验表明 NanoResearch 相比最先进 AI 研究系统产生显著增益,并在连续周期中逐步精化自身以更低成本产出更好研究。
📌 其他值得关注
IndustryBench: Probing the Industrial Knowledge Boundaries of LLMs
工业采购问答基准:安全违规率重排排行榜,扩展推理反而降低安全调整分
- 作者: Songlin Bai, Xintong Wang, Linlin Yu et al.
- 来源: HuggingFace
- 链接: arXiv | PDF
- 关键贡献: 构建基于中国国标(GB/T)的 2049 项工业采购中文 QA 基准,7 维能力、10 行业类别。构建管线拒绝 70.3% LLM 生成候选。发现扩展推理降低 13/17 模型安全调整分(引入未支撑的安全关键细节),安全违规率重排排行榜。
- 相关技术: industrial QA benchmark, safety violation, standards compliance, GB/T alignment
- 代码/权重: 已发布(含 prompt、评分脚本、数据集文档)
📄 Abstract 中文翻译
在工业采购中,LLM 答案仅在通过标准检查时才有用:推荐材料必须匹配操作条件,每个参数必须遵守规定阈值,任何程序不得与安全条款矛盾。部分正确性可能掩盖聚合 LLM 基准很少捕获的安全关键矛盾。我们推出 IndustryBench,一个 2049 项工业采购中文 QA 基准,基于中国国标(GB/T)和结构化工业产品记录,按七维能力、十行业类别和专家派生难度层级组织,并配有英文、俄文和越南文翻译。构建管线在搜索式外部验证阶段拒绝 70.3% LLM 生成候选。评估分离原始正确性(由与领域专家验证 κ_w = 0.798 的 Qwen3-Max 评判)和独立的安全违规(SV)检查。跨 17 个模型发现:(i)最佳系统在 0-3 评分标准上仅达 2.083,留有大量提升空间;(ii)标准与术语是最持续的能力弱点且在翻译后保留;(iii)扩展推理降低 13/17 模型的安全调整分,主要通过在更长最终答案中引入未支撑的安全关键细节;以及(iv)安全违规率重排排行榜——GPT-5.4 在 SV 调整后从第 6 升至第 3,而 Kimi-k2.5-1T-A32B 下降 7 位。工业 LLM 评估因此需要来源接地、安全感知诊断而非聚合准确率。
SlimSpec: Low-Rank Draft LM-Head for Accelerated Speculative Decoding
草稿模型 LM-Head 低秩参数化,4-5 倍加速投机解码
- 作者: Anton Plaksin, Sergei Krutikov, Sergei Skvortsov et al.
- 来源: HuggingFace Trending (7 upvotes)
- 链接: arXiv | PDF
- 关键贡献: 提出 SlimSpec,对草稿模型的 LM-Head 进行低秩参数化,压缩内部表示而非输出,保持完整词表支持。在 EAGLE-3 草稿器上实现 4-5 倍加速,端到端加速比现有方法提升 8-9%。
- 相关技术: speculative decoding, low-rank LM-head, draft model acceleration, token acceptance
- 代码/权重: 未提及
📄 Abstract 中文翻译
投机解码通过两步流程加速自回归生成:轻量级草稿模型提出 token,目标模型在单次前向传播中验证。尽管草稿网络在现代架构中很小,其 LM-Head 仍执行到大型词表的投影,成为主要计算瓶颈之一。先前工作主要通过静态或动态词表截断解决此问题。然而这些方法带来额外复杂性,如特殊词表策划、复杂推理时逻辑或训练设置修改。本文提出 SlimSpec,对草稿器 LM-Head 的低秩参数化,压缩内部表示而非输出,保持完整词表支持。我们在 EAGLE-3 草稿器上跨三个目标模型和多种基准评估,在延迟和吞吐量受限推理场景下,SlimSpec 实现相比标准 LM-Head 架构 4-5 倍加速,同时保持竞争性接受长度,端到端加速比现有方法提升达 8-9%。我们的方法仅需最少的训练和推理管线调整。
FraudBench: A Multimodal Benchmark for Detecting AI-Generated Fraudulent Refund Evidence
AI 生成退款欺诈证据检测基准,MLLM 伪造损伤检测率远低于 50% 基线
- 作者: Xinyu Yan, Boyang Chen, Jiaming Zhang et al.
- 来源: HuggingFace
- 链接: arXiv | PDF
- 关键贡献: 构建电商、外卖、旅游场景的多模态退款欺诈检测基准 FraudBench。MLLM 常识别真实损伤但无法检测伪造损伤(TPR 远低于 50% 基线)。专业检测器虽表现更好但不跨生成器一致,且对真实损伤产生误报。
- 相关技术: AI-generated image detection, refund fraud, claim-conditioned verification, multimodal benchmark
- 代码/权重: 未提及
📄 Abstract 中文翻译
AI 生成图像已变得越来越逼真且易于适配具体现实世界声明,为视觉证据验证创造了新挑战。一个具体的新兴风险是 AI 生成退款欺诈,其中操纵或合成图像被用于支持关于产品损坏、交付条件差或服务缺陷的索赔。现有 AI 生成图像检测基准主要评估独立真伪分类、跨生成器迁移或取证定位,而声明条件的欺诈证据检测仍未被充分探索。为填补此差距,我们推出 FraudBench,一个用于检测 AI 生成退款欺诈证据的多模态基准。FraudBench 从电商、外卖和旅游服务场景的真实用户评论证据构建。我们整理真实证据图像及其相关评论和产品元数据,通过 MLLM 辅助过滤和人工标注识别真实损伤和未损伤证据,并使用六种最先进图像编辑和生成模型从真实未损伤参考图像合成伪造损伤证据。使用 FraudBench,我们在相同设置下评估 MLLM、专业 AI 生成图像检测器和人类参与者。实验表明,当前 MLLM 常识别真实损伤证据但在许多伪造损伤子集上失败,伪造损伤检测率(TPR)在大多数生成器子集上远低于 50% 基线。专业检测器总体表现更好但跨生成器不一致,且可能对真实损伤样本产生误报,揭示通用 AI 图像检测与可靠声明条件退款证据验证之间的明显差距。
Generated on 2026-05-13 00:00 UTC | Sources: arXiv, HuggingFace, Papers With Code