AI Paper Daily | 2026-04-11

今日概览

共收录 30 篇论文 | Audio LLM: 4篇 | LLM Training: 14篇 | AI Agents: 12篇 来源: HuggingFace(30)

重点推荐 ⭐

HY-Embodied-0.5: Embodied Foundation Models for Real-World Agents

腾讯发布面向真实世界具身智能的基础模型家族,2B 小模型在 16 个基准上超越同量级 SOTA,32B 大模型比肩 Gemini 3.0 Pro

  • 作者: Tencent Robotics X et al.
  • 来源: HuggingFace Trending (126 upvotes)
  • 链接: arXiv | PDF
  • 关键贡献: 采用 MoT 架构实现模态专用计算,引入潜在 token 增强感知表征;迭代自进化后训练范式 + on-policy 蒸馏;22 基准验证 + VLA 模型
  • 相关技术: Mixture-of-Transformers, on-policy distillation, Vision-Language-Action, embodied reasoning, latent token
  • 代码/权重: 已开源 ✅
📄 Abstract 中文翻译

我们介绍了 HY-Embodied-0.5,一个专门为真实世界具身智能体设计的基础模型家族。为了弥合通用 VLM 与具身智能体需求之间的差距,我们的模型着力增强时空视觉感知和高级具身推理能力。HY-Embodied-0.5 包含两个变体:2B 激活参数的边缘部署模型和 32B 激活参数的复杂推理模型。我们采用混合 Transformer (MoT) 架构实现模态专用计算,引入潜在 token 增强感知表征。提出迭代自进化后训练范式和 on-policy 蒸馏。在 22 个基准上 MoT-2B 在 16 个基准超越同规模 SOTA,32B 可比肩 Gemini 3.0 Pro。下游 VLA 模型在真实世界物理评估中取得令人信服的结果。


LPM 1.0: Video-based Character Performance Model

17B Diffusion Transformer 解决角色表演「三难困境」,实现高表现力实时推理和长程身份一致性

  • 作者: Ailing Zeng et al.
  • 来源: HuggingFace Trending (36 upvotes)
  • 链接: arXiv | PDF
  • 关键贡献: 17B Base LPM 多模态条件可控生成;蒸馏为 Online LPM 实现低延迟无限长交互;构建 LPM-Bench 首个交互式角色表演基准
  • 相关技术: Diffusion Transformer, full-duplex conversation, causal streaming, identity-aware reference, performance trilemma
  • 代码/权重: 未提及
📄 Abstract 中文翻译

表演是让角色活起来的关键。现有视频模型难以同时实现高表现力、实时推理和长程身份稳定性(表演三难困境)。我们提出 LPM 1.0,聚焦单人全双工音视频对话表演。构建以人为中心的多模态数据集;训练 17B 参数 Diffusion Transformer (Base LPM);蒸馏为因果流式生成器 (Online LPM)。推理时从用户音频生成聆听视频,从合成音频生成说话视频,全部实时实现身份稳定的无限长生成。提出 LPM-Bench 首个交互式角色表演基准,LPM 1.0 在所有维度取得 SOTA。


MolmoWeb: Open Visual Web Agent and Open Data for the Open Web

全开放的多模态 Web 智能体家族,8B 模型超越 GPT-4o 的 SoM 智能体,test-time scaling 显著提升

  • 作者: Tanmay Gupta et al.
  • 来源: HuggingFace Trending (26 upvotes)
  • 链接: arXiv | PDF
  • 关键贡献: MolmoWebMix 大规模混合数据集(10 万+合成 + 3 万+人工);仅截图预测浏览器动作;best-of-N 选择实现 test-time scaling
  • 相关技术: visual web agent, browser task demonstration, test-time scaling, best-of-N, screenshot-only policy
  • 代码/权重: 未提及
📄 Abstract 中文翻译

Web 智能体有潜力改变人机交互方式,但最有能力的 Web 智能体依赖专有模型。我们引入 MolmoWebMix 大型混合数据和 MolmoWeb 全开放 Web 智能体家族。MolmoWebMix 结合超过 10 万条合成轨迹和 3 万多条人工演示。MolmoWeb 仅基于截图预测浏览器动作,无需 HTML/a11y tree。4B 和 8B 两种规模在 WebVoyager 等基准上超越同规模开源模型,MolmoWeb-8B 超越 GPT-4o 的 SoM 智能体。通过 best-of-N 选择实现 test-time scaling,pass@4 大幅提升至 94.7% 和 60.5%。


Act Wisely: Cultivating Meta-Cognitive Tool Use in Agentic Multimodal Models

HDPO 框架将工具效率从竞争标量目标解耦为条件目标,大幅减少不必要的工具调用

  • 作者: Shilin Yan et al.
  • 来源: HuggingFace Trending (28 upvotes)
  • 链接: arXiv | PDF
  • 关键贡献: 揭示多模态智能体元认知缺陷——盲目工具调用;HDPO 维持准确度+效率两个正交通道;自然形成认知课程
  • 相关技术: HDPO, conditional advantage estimation, meta-cognitive tool use, reward decoupling, cognitive curriculum
  • 代码/权重: 未提及
📄 Abstract 中文翻译

多模态智能体存在元认知缺陷:难以合理仲裁内部知识和外部工具,经常盲目调用工具。现有 RL 用标量化奖励惩罚工具使用,但造成优化困境。我们提出 HDPO,将工具效率重新定义为严格条件目标,维持准确度和效率两个正交优化通道。效率通道仅在正确轨迹内强制执行经济性。这种解耦架构自然诱导认知课程。模型 Metis 将工具调用减少数量级,同时提升推理准确度。


🔊 Audio LLM

AVGen-Bench: A Task-Driven Benchmark for Multi-Granular Evaluation of Text-to-Audio-Video Generation

首个面向 T2AV 生成任务的细粒度评估基准,揭示强美学与弱语义可靠性的显著差距

  • 作者: Ziwei Zhou et al.
  • 来源: HuggingFace Trending
  • 链接: arXiv | PDF
  • 关键贡献: 首个任务驱动 T2AV 基准覆盖 11 真实类别;多粒度评估结合专家模型和 MLLM;揭示文本渲染、语音连贯、物理推理和音高控制普遍崩溃
  • 相关技术: T2AV generation, multi-granular evaluation, semantic controllability, perceptual quality, specialist-MLLM hybrid
  • 代码/权重: 未提及
📄 Abstract 中文翻译

T2AV 生成的评估仍然碎片化,现有基准孤立评估或用粗粒度相似度。我们引入 AVGen-Bench 任务驱动基准,包含 11 个类别的高质量提示。多粒度评估框架结合轻量专家模型和 MLLM。评估揭示强美学与弱语义可靠性的显著差距,包括文本渲染、语音连贯、物理推理失败和音乐音高控制普遍崩溃。


OmniJigsaw: Enhancing Omni-Modal Reasoning via Modality-Orchestrated Reordering

基于时序重排代理任务的全模态自监督框架,同时增强视频-音频理解和协作推理

  • 作者: Yiduo Jia et al.
  • 来源: HuggingFace Trending (16 upvotes)
  • 链接: arXiv | PDF
  • 关键贡献: 基于乱序音视频片段时序重建的自监督框架;三种跨模态整合策略;发现「双模态捷径现象」,片段级遮蔽可有效缓解
  • 相关技术: temporal reordering, omni-modal reasoning, modality masking, self-supervised learning, coarse-to-fine filtering
  • 代码/权重: 未提及
📄 Abstract 中文翻译

我们提出 OmniJigsaw——基于时序重排代理任务的全模态自监督框架。设计三种跨模态整合策略:联合模态、样本级选择、片段级遮蔽。两阶段粗到细过滤管线适应大规模数据。发现联合模态整合中的「双模态捷径现象」,片段级遮蔽可有效缓解且优于样本级选择。15 个基准上显示显著增益。


Making MLLMs Blind: Adversarial Smuggling Attacks in MLLM Content Moderation

揭示 MLLM 内容审核中的对抗性走私攻击,GPT-5 和 Qwen3-VL 攻击成功率超 90%

  • 作者: Zhiheng Li et al.
  • 来源: HuggingFace Trending
  • 链接: arXiv | PDF
  • 关键贡献: 发现对抗性走私攻击新威胁利用人机能力差距;分为感知致盲和推理封锁两类;SmuggleBench 1700 实例,SOTA 模型 ASR 超 90%
  • 相关技术: adversarial smuggling, perceptual blindness, reasoning blockade, content moderation, OCR robustness gap
  • 代码/权重: 已开源 ✅
📄 Abstract 中文翻译

我们发现 MLLM 内容审核中的对抗性走私攻击:将有害内容编码为人可读但 AI 不可读的视觉格式。分为感知致盲和推理封锁两条路径。构建 SmuggleBench 1700 实例,GPT-5 和 Qwen3-VL 等 SOTA 模型 ASR 超 90%。根本原因:视觉编码器有限、OCR 鲁棒性差距、对抗样本稀缺。


🧠 LLM Training

OpenVLThinkerV2: A Generalist Multimodal Reasoning Model for Multi-domain Visual Tasks

Gaussian GRPO 替代线性缩放确保跨任务梯度公平,4B 模型达到多模态 SOTA

  • 作者: Wenbo Hu et al.
  • 来源: HuggingFace Trending (20 upvotes)
  • 链接: arXiv | PDF
  • 关键贡献: G²RPO 用非线性分布匹配确保跨任务梯度公平;响应长度塑形和熵塑形平衡感知与推理;4B 在 18 基准超越开源和闭源模型
  • 相关技术: Gaussian GRPO, distributional matching, entropy shaping, response length shaping, multimodal reasoning
  • 代码/权重: 已开源 ✅
📄 Abstract 中文翻译

GRPO 已成为多模态 LLM 的事实 RL 目标,但扩展到通用模型受限于奖励拓扑方差和感知-推理平衡难题。我们引入高斯 GRPO (G²RPO),用非线性分布匹配替代线性缩放,强制优势分布收敛到 N(0,1),确保跨任务梯度公平。引入响应长度塑形和熵塑形两种任务级机制。OpenVLThinkerV2 在 18 个基准上超越强开源和闭源模型。


HiExp 框架将随机探索转化为经验驱动策略搜索,提升搜索智能体训练效率和稳定性

  • 作者: Chuzhan Hao et al.
  • 来源: HuggingFace Trending (2 upvotes)
  • 链接: arXiv | PDF
  • 关键贡献: 分层经验框架通过对比分析和多层聚类提取经验知识;正则化随机探索为策略性搜索;强跨任务跨算法泛化
  • 相关技术: hierarchical experience, contrastive analysis, multi-level clustering, experience-aligned training, agentic search
  • 代码/权重: 未提及
📄 Abstract 中文翻译

RL 已成为推进 LLM 推理能力的有效方法,但搜索智能体依赖随机探索导致低效和不稳定。我们提出分层经验 (HiExp) 框架,通过对比分析和多层聚类将原始轨迹转化为层次化经验知识,正则化随机探索为经验驱动搜索。在多个基准上实现显著增益和强泛化能力。


Small Vision-Language Models are Smart Compressors for Long Video Understanding

6B 模型在 8K 视觉预算下超越 GPT-4o 和 Gemini 1.5 Pro,长视频理解依赖意图驱动效率

  • 作者: Junjie Fei et al.
  • 来源: HuggingFace Trending (4 upvotes)
  • 链接: arXiv | PDF
  • 关键贡献: 小型 VLM 作为查询感知压缩器,单次前向传播生成意图对齐表征;自适应 token 分配作为免训练动态路由器;LVBench 8K 预算 52.3 分超越 GPT-4o
  • 相关技术: query-aware compression, cross-modal distillation, adaptive token allocation, SVLM compressor, long video understanding
  • 代码/权重: 未提及
📄 Abstract 中文翻译

我们提出 Tempo——查询感知的长视频压缩框架。利用小型 VLM 作为局部时间压缩器,单次前向传播生成紧凑表征。自适应 Token 分配 (ATA) 作为免训练动态路由器。6B 架构在 LVBench 上 8K 预算得 52.3,超越 GPT-4o 和 Gemini 1.5 Pro。证明长视频理解依赖意图驱动效率而非暴力上下文。


MMEmb-R1: Reasoning-Enhanced Multimodal Embedding with Pair-Aware Selection and Adaptive Control

自适应推理增强的多模态嵌入框架,4B 参数在 MMEB-V2 上创 SOTA

  • 作者: Yuchi Wang et al.
  • 来源: HuggingFace Trending (8 upvotes)
  • 链接: arXiv | PDF
  • 关键贡献: 推理建模为潜在变量,配对感知推理选择用反事实干预识别有益推理路径;RL 选择性调用推理;4B 在 MMEB-V2 达 71.2 SOTA
  • 相关技术: pair-aware reasoning selection, counterfactual intervention, adaptive reasoning, multimodal embedding, reinforcement learning
  • 代码/权重: 未提及
📄 Abstract 中文翻译

我们提出 MMEmb-R1 自适应推理增强多模态嵌入框架。将推理建模为潜在变量,引入配对感知推理选择使用反事实干预识别有益推理路径。采用 RL 选择性调用推理。4B 参数在 MMEB-V2 上达 71.2 SOTA,显著减少推理开销和延迟。


Q-Zoom: Query-Aware Adaptive Perception for Efficient Multimodal Large Language Models

查询感知自适应高分辨率感知框架,推理加速 2.52-4.39 倍同时保持精度

  • 作者: Yuheng Shi et al.
  • 来源: HuggingFace Trending (2 upvotes)
  • 链接: arXiv | PDF
  • 关键贡献: 轻量动态门控网络跳过不必要的高分辨率处理;自蒸馏区域提议网络定位任务相关 RoI;连续时空对齐融合局部和全局特征
  • 相关技术: dynamic gating network, self-distilled region proposal, adaptive token allocation, coarse-to-fine perception, query-aware RoI
  • 代码/权重: 未提及
📄 Abstract 中文翻译

我们提出 Q-Zoom 查询感知自适应高分辨率感知框架。轻量门控网络在粗特征足够时跳过高分辨率处理。自蒸馏区域提议网络定位任务相关 RoI。在 Qwen2.5-VL-7B 上文档基准加速 2.52 倍,高分辨率加速 4.39 倍,同时匹配峰值精度。改进无缝迁移到 Qwen3-VL、LLaVA 等模型。


MedVR: Annotation-Free Medical Visual Reasoning via Agentic Reinforcement Learning

无需人工标注的医学视觉推理框架,通过熵引导视觉重定位和共识信用分配实现 SOTA

  • 作者: Zheng Jiang et al.
  • 来源: HuggingFace Trending (1 upvotes)
  • 链接: arXiv | PDF
  • 关键贡献: 无需标注的医学视觉推理 RL 框架;熵引导视觉重定位 (EVR) 利用不确定性引导探索;共识信用分配 (CCA) 从 rollout 一致性蒸馏伪监督
  • 相关技术: entropy-guided regrounding, consensus-based credit assignment, annotation-free reasoning, medical VLM, visual hallucination
  • 代码/权重: 未提及
📄 Abstract 中文翻译

医学 VLM 推理能力受限于仅文本范式,无法基于视觉证据推理。我们提出 MedVR 无标注视觉推理 RL 框架。核心创新:熵引导视觉重定位 (EVR) 和共识信用分配 (CCA)。无需任何中间步骤标注,在多种医学 VQA 基准上达 SOTA,促进鲁棒和透明的医学 AI。


ImplicitMemBench: Measuring Unconscious Behavioral Adaptation in Large Language Models

首个系统评估 LLM 隐式记忆的基准,即使 GPT-5 也远低于人类基线

  • 作者: Chonghan Qin et al.
  • 来源: HuggingFace Trending (1 upvotes)
  • 链接: arXiv | PDF
  • 关键贡献: 涵盖程序性记忆、启动效应和经典条件反射三个构念;统一学习/启动-干扰-测试协议;揭示抑制(17.6%) vs 偏好(75.0%)剧烈不对称
  • 相关技术: procedural memory, priming, classical conditioning, implicit memory, non-declarative memory
  • 代码/权重: 未提及
📄 Abstract 中文翻译

我们引入 ImplicitMemBench——首个系统评估隐式记忆的基准,涵盖程序性记忆、启动效应和经典条件反射。300 项测试统一协议。17 个模型无一超 66%,DeepSeek-R1 (65.3%)、Qwen3-32B (64.1%)、GPT-5 (63.0%) 远低于人类基线。揭示抑制 vs 偏好的剧烈不对称性。


Rethinking Generalization in Reasoning SFT: A Conditional Analysis on Optimization, Data, and Model Capability

重新审视「SFT 记忆、RL 泛化」,发现推理 SFT 跨域泛化是条件性的,存在 dip-and-recovery 模式

  • 作者: Qihan Ren et al.
  • 来源: HuggingFace Trending (152 upvotes)
  • 链接: arXiv | PDF
  • 关键贡献: 推理 SFT 跨域泛化是条件性的而非缺席;发现 dip-and-recovery 模式;泛化不对称:推理提升但安全性下降
  • 相关技术: reasoning SFT generalization, dip-and-recovery pattern, cross-domain transfer, long CoT supervision, optimization dynamics
  • 代码/权重: 未提及
📄 Abstract 中文翻译

LLM 后训练中「SFT 记忆、RL 泛化」的说法需要重新审视。推理 SFT 的跨域泛化并非缺席而是条件性的,由优化动态、训练数据和模型能力共同塑造。发现 dip-and-recovery 模式:跨域性能先降后升。更强模型从玩具任务内化可迁移程序模式。但泛化不对称:推理改善而安全性下降。


INSPATIO-WORLD: A Real-Time 4D World Simulator via Spatiotemporal Autoregressive Modeling

从单参考视频恢复并生成高保真动态交互场景的实时框架

  • 作者: InSpatio Team et al.
  • 来源: HuggingFace Trending (25 upvotes)
  • 链接: arXiv | PDF
  • 关键贡献: 时空自回归 (STAR) 架构,隐式缓存+显式约束双模块;联合分布匹配蒸馏克服保真度退化;WorldScore-Dynamic 实时方法中排名第一
  • 相关技术: spatiotemporal autoregressive, implicit spatiotemporal cache, joint distribution matching distillation, 4D world simulation, monocular reconstruction
  • 代码/权重: 未提及
📄 Abstract 中文翻译

我们提出 INSPATIO-WORLD 实时 4D 世界模拟框架。时空自回归 (STAR) 架构包含隐式时空缓存和显式空间约束模块。联合分布匹配蒸馏 (JDMD) 以真实数据分布为正则化克服保真度退化。在 WorldScore-Dynamic 上实时交互方法中排名第一,建立从单目视频导航 4D 环境的实用管线。


Towards Real-world Human Behavior Simulation: Benchmarking Large Language Models on Long-horizon, Cross-scenario, Heterogeneous Behavior Traces

首个完全基于真实数据的用户模拟基准,揭示 LLM 存在「正向平均人」结构偏差

  • 作者: Jiawei Chen et al.
  • 来源: HuggingFace Trending (8 upvotes)
  • 链接: arXiv | PDF
  • 关键贡献: OmniBehavior 首个真实数据用户模拟基准,整合长程跨场景异构行为;揭示孤立场景的隧道视野问题;LLM 收敛为正向平均人:超活跃、人格同质化、乌托邦偏差
  • 相关技术: user simulation benchmark, cross-scenario behavior, tunnel vision, persona homogenization, long-horizon traces
  • 代码/权重: 未提及
📄 Abstract 中文翻译

我们引入 OmniBehavior——首个完全基于真实数据的用户模拟基准,整合长程跨场景异构行为模式。揭示孤立场景的隧道视野问题,真实决策依赖长程跨场景因果链。LLM 倾向收敛为正向平均人,表现出超活跃、人格同质化和乌托邦偏差,丢失个体差异和长尾行为。


The Depth Ceiling: On the Limits of Large Language Models in Discovering Latent Planning

揭示 LLM 潜在规划能力天花板:GPT-5.4 最多 7 步,训练中发现上限仅 5 步

  • 作者: Yi Xu et al.
  • 来源: HuggingFace Trending (6 upvotes)
  • 链接: arXiv | PDF
  • 关键贡献: 系统测试 LLM 无需中间步骤监督发现多步规划策略的能力;规模扩展无法解决的惊人限制;策略发现与执行存在分离
  • 相关技术: latent planning depth, graph path-finding, CoT monitoring, few-shot prompting, strategy discovery vs. execution
  • 代码/权重: 未提及
📄 Abstract 中文翻译

我们通过图寻路任务测试 LLM 潜在规划极限。从头训练的微型 Transformer 发现最多 3 步策略,GPT-4o 和 Qwen3-32B 达 5 步,GPT-5.4 达 7 步。训练中可学习最大深度仅 5 步,但发现的策略可泛化到 8 步。揭示策略发现与执行的分离。若限制广泛成立,多步潜在规划需显式教授或外部化。


🤖 AI Agents

Structured Distillation of Web Agent Capabilities Enables Generalization

Agent-as-Annotators 框架:9B 学生模型 WebArena 41.5%,超越 Claude 3.5 Sonnet 和 GPT-4o

  • 作者: Xing Han Lù et al.
  • 来源: HuggingFace Trending (14 upvotes)
  • 链接: arXiv | PDF
  • 关键贡献: Agent-as-Annotators 用模块化 LLM 替代人工标注角色;9B 纯监督学习超越闭源模型;能力迁移到未见环境(WorkArena L1 +18.2pp)
  • 相关技术: structured trajectory synthesis, agent-as-annotator, supervised distillation, cross-environment transfer, quality filtering
  • 代码/权重: 未提及
📄 Abstract 中文翻译

前沿 LLM 能导航复杂网站,但成本和 API 依赖使本地部署不切实际。我们提出 Agent-as-Annotators 框架,用模块化 LLM 组件替代人工标注角色。使用 Gemini 3 Pro 生成 3000 条轨迹,微调 9B 学生模型达 41.5%(WebArena),超越 Claude 3.5 Sonnet (36.0%) 和 GPT-4o (31.5%)。能力迁移到未见环境,WorkArena L1 提升 18.2pp。


Claw-Eval: Toward Trustworthy Evaluation of Autonomous Agents

端到端智能体评估套件,轨迹感知评分发现传统评估遗漏的 44% 安全违规和 13% 鲁棒性故障

  • 作者: Bowen Ye et al.
  • 来源: HuggingFace Trending (107 upvotes)
  • 链接: arXiv | PDF
  • 关键贡献: 三通道证据实现轨迹感知评分,2159 条细粒度评分项;评估完成度+安全性+鲁棒性,区分真实能力与运气;揭示多模态性能差异大
  • 相关技术: trajectory-aware grading, safety evaluation, robustness evaluation, multimodal agent benchmark, Pass^k metric
  • 代码/权重: 未提及
📄 Abstract 中文翻译

我们引入 Claw-Eval 端到端评估套件,300 个任务跨 9 类。三通道证据(执行追踪、审计日志、环境快照)实现轨迹感知评分,2159 条评分项。评估完成度、安全性和鲁棒性。实验揭示轨迹不透明评估遗漏 44% 安全违规和 13% 鲁棒性故障。多模态性能差异大,视频远差于文档和图像。


ClawBench: Can AI Agents Complete Everyday Online Tasks?

153 个日常在线任务覆盖 144 个生产网站,Claude Sonnet 4.6 仅完成 33.3%

  • 作者: Yuxuan Zhang et al.
  • 来源: HuggingFace Trending (81 upvotes)
  • 链接: arXiv | PDF
  • 关键贡献: 153 真实任务覆盖 15 类 144 生产网站;轻量拦截层安全评估无副作用;前沿模型只能完成小部分任务
  • 相关技术: production website evaluation, safe evaluation layer, multi-step workflow, write-heavy operations, real-world side effects
  • 代码/权重: 已开源 ✅
📄 Abstract 中文翻译

AI 智能体能自动化你的收件箱,但能自动化其他日常事务吗?我们引入 ClawBench,153 个日常在线任务,覆盖 15 类 144 个生产平台。轻量拦截层仅阻止最终提交,确保安全评估无副作用。7 个前沿模型都只能完成小部分任务,Claude Sonnet 4.6 仅达 33.3%。


KnowU-Bench: Towards Interactive, Proactive, and Personalized Mobile Agent Evaluation

个性化移动智能体评估基准,前沿模型在模糊指令下准确率骤降至 50% 以下

  • 作者: Tongbo Chen et al.
  • 来源: HuggingFace Trending (33 upvotes)
  • 链接: arXiv | PDF
  • 关键贡献: 首个在线个性化移动智能体基准,隐藏 profile 强制偏好推理;LLM 用户模拟器支持多轮偏好获取;核心瓶颈在偏好获取和干预校准而非 GUI 导航
  • 相关技术: personalized mobile agent, preference inference, proactive consent, LLM user simulator, intervention calibration
  • 代码/权重: 未提及
📄 Abstract 中文翻译

个性化移动智能体前景广阔,但现有基准无法测试偏好推理和主动干预。我们引入 KnowU-Bench,隐藏用户 profile 强制真正的偏好推理。LLM 用户模拟器支持多轮澄清对话。实验揭示即使前沿模型在模糊指令下也降至 50% 以下。核心瓶颈不在 GUI 导航而在偏好获取和干预校准。


DMax: Aggressive Parallel Decoding for dLLMs

扩散语言模型高效并行解码,TPF 从 2.04 提升至 5.47,双 H200 上达 1338 TPS

  • 作者: Zigeng Chen et al.
  • 来源: HuggingFace Trending (28 upvotes)
  • 链接: arXiv | PDF
  • 关键贡献: 将解码重新表述为 mask 嵌入到 token 嵌入的渐进自精炼;On-Policy Uniform Training 统一掩码和均匀 dLLM;软并行解码在嵌入空间迭代自修正
  • 相关技术: diffusion language model, parallel decoding, on-policy uniform training, soft parallel decoding, self-refinement
  • 代码/权重: 已开源 ✅
📄 Abstract 中文翻译

我们提出 DMax——高效扩散语言模型新范式,缓解并行解码错误累积。将解码重新表述为从 mask 嵌入到 token 嵌入的渐进自精炼。On-Policy Uniform Training 统一掩码和均匀 dLLM。软并行解码在嵌入空间实现迭代自修正。GSM8K 上 TPF 从 2.04 提升至 5.47,双 H200 上达 1338 TPS。


SkillClaw: Let Skills Evolve Collectively with Agentic Evolver

多用户智能体生态中的集体技能进化框架,让技能随使用经验自动迭代优化

  • 作者: Ziyu Ma et al.
  • 来源: HuggingFace Trending (143 upvotes)
  • 链接: arXiv | PDF
  • 关键贡献: 跨用户集体技能进化框架;自主进化器识别行为模式并更新技能集;共享技能仓库实现跨用户知识迁移
  • 相关技术: collective skill evolution, multi-user agent ecosystem, autonomous evolver, cross-user knowledge transfer, trajectory aggregation
  • 代码/权重: 未提及
📄 Abstract 中文翻译

LLM 智能体技能在部署后保持静态,相似工作流和失败模式被反复重新发现。我们提出 SkillClaw 集体技能进化框架,将跨用户交互作为技能改进信号。自主进化器识别行为模式并转化为技能更新,共享仓库使改进全局传播。在 WildClawBench 上显著提升 Qwen3-Max 表现。


Think in Strokes, Not Pixels: Process-Driven Image Generation via Interleaved Reasoning

像人类画画一样逐步生成图像:规划-起草-反思-精炼的交错推理范式

  • 作者: Lei Zhang et al.
  • 来源: HuggingFace Trending (57 upvotes)
  • 链接: arXiv | PDF
  • 关键贡献: 过程驱动图像生成范式,合成分解为交错推理轨迹;每个迭代含文本规划、视觉起草、文本反思、视觉精炼四阶段;密集逐步监督保持空间语义一致性
  • 相关技术: process-driven generation, interleaved reasoning, dense step-wise supervision, spatial consistency, visual intermediate states
  • 代码/权重: 未提及
📄 Abstract 中文翻译

人类渐进地绘制图像:规划布局、勾勒草稿、检查精炼,每步基于演化视觉状态。我们引入过程驱动图像生成——将合成分解为思想和动作交错推理轨迹。每个迭代包含文本规划、视觉起草、文本反思和视觉精炼四阶段。通过密集逐步监督维持视觉中间状态的空间语义一致性和文本中间状态的先验知识保持。


Paper Circle: An Open-source Multi-agent Research Discovery and Analysis Framework

多智能体论文发现与分析系统,集成检索、评分、知识图谱和问答

  • 作者: Komal Kumar et al.
  • 来源: HuggingFace Trending (22 upvotes)
  • 链接: arXiv | PDF
  • 关键贡献: 双管线架构:发现管线(多源检索+评分+排序)和分析管线(结构化知识图谱+图感知问答);基于 coder LLM 多智能体编排;每步可复现输出
  • 相关技术: multi-agent orchestration, knowledge graph, diversity-aware ranking, graph-aware QA, reproducible pipeline
  • 代码/权重: 已开源 ✅
📄 Abstract 中文翻译

我们引入 Paper Circle 多智能体论文发现和分析系统。发现管线集成多源检索、多标准评分和多样性排序;分析管线将论文转化为结构化知识图谱,支持图感知问答。基于 coder LLM 多智能体编排,每步产出可复现的 JSON/CSV/BibTeX/Markdown/HTML。在检索和审阅生成基准上报告 hit rate、MRR 和 Recall。


RAGEN-2: Reasoning Collapse in Agentic RL

发现智能体 RL 中的模板崩溃现象,提出互信息代理和 SNR 感知过滤

  • 作者: Zihan Wang et al.
  • 来源: HuggingFace Trending (49 upvotes)
  • 链接: arXiv | PDF
  • 关键贡献: 发现模板崩溃——熵指标无法检测的失败模式;将推理质量分解为输入内多样性(熵)和跨输入可区分性(互信息);SNR 感知过滤选择高信号 prompt
  • 相关技术: template collapse, mutual information proxy, SNR-aware filtering, agentic RL, reward variance
  • 代码/权重: 未提及
📄 Abstract 中文翻译

多轮 LLM 智能体 RL 训练本质上不稳定。我们发现模板崩溃:模型使用看似多样但输入无关的固定模板,熵指标无法检测。将推理质量分解为熵和互信息。互信息与最终性能相关性远强于熵。用信噪比机制解释模板崩溃,提出 SNR 感知过滤选择高信号 prompt。跨四类任务一致改善。


Externalization in LLM Agents: A Unified Review of Memory, Skills, Protocols and Harness Engineering

从认知工件视角系统综述 LLM 智能体的外部化:记忆、技能、协议和工具工程

  • 作者: Chenyu Zhou et al.
  • 来源: HuggingFace Trending (33 upvotes)
  • 链接: arXiv | PDF
  • 关键贡献: 认知工件视角统一分析记忆、技能、协议三种外部化形式;追溯从权重到上下文到工具工程的历史演进;参数化与外部化能力权衡框架
  • 相关技术: cognitive artifacts, memory externalization, skill externalization, protocol externalization, harness engineering
  • 代码/权重: 未提及
📄 Abstract 中文翻译

LLM 智能体越来越多地通过重组运行时而非改变权重来构建。能力被外部化到记忆存储、可复用技能、交互协议和工具工程中。通过认知工件视角,记忆外部化状态、技能外部化程序专长、协议外部化交互结构、工具工程统一协调。我们追溯历史演进,分析三种外部化形式的耦合关系,讨论参数化与外部化权衡和新兴方向。


OpenSpatial: A Principled Data Engine for Empowering Spatial Intelligence

开源空间数据引擎,3M 样本数据集训练的模型相对提升 19%

  • 作者: Jianhui Liu et al.
  • 来源: HuggingFace Trending (26 upvotes)
  • 链接: arXiv | PDF
  • 关键贡献: 以 3D 边界框为基本原语构建五类空间任务数据层次;开源引擎支持高质量可扩展多任务数据生成;OpenSpatial-3M 训练模型在空间推理基准上相对提升 19%
  • 相关技术: 3D bounding box, spatial measurement, spatial relationship, scene-aware reasoning, scalable data engine
  • 代码/权重: 已开源 ✅
📄 Abstract 中文翻译

我们引入 OpenSpatial 开源数据引擎。采用 3D 边界框为基本原语,跨五类空间任务构建数据层次:空间测量、空间关系、相机感知、多视角一致性和场景感知推理。策划 OpenSpatial-3M 300 万样本数据集。训练模型在空间推理基准上达 SOTA,最佳模型相对提升 19%。


Lighting-grounded Video Generation with Renderer-based Agent Reasoning

LiVER:基于渲染器智能体推理的光照可控视频生成框架

  • 作者: Ziqi Cai et al.
  • 来源: HuggingFace Trending (5 upvotes)
  • 链接: arXiv | PDF
  • 关键贡献: 基于统一 3D 表示解耦布局、光照和相机轨迹;场景智能体自动翻译用户指令为 3D 控制信号;轻量条件模块和渐进训练策略稳定融合
  • 相关技术: 3D scene control, renderer-based reasoning, scene agent, disentangled conditioning, progressive training
  • 代码/权重: 未提及
📄 Abstract 中文翻译

我们提出 LiVER 场景可控视频生成框架。基于显式 3D 属性条件化,从统一 3D 表示解耦布局、光照和相机轨迹。轻量条件模块和渐进训练策略稳定融合控制信号。场景智能体自动将高层指令翻译为 3D 控制信号。实现 SOTA 照片真实感和时间一致性,精确解耦控制场景因素。


Generated on 2026-04-11 00:00 UTC | Sources: HuggingFace

Licensed under CC BY-NC-SA 4.0