AI Paper Daily | 2026-05-06

今日概览

共收录 19 篇论文 | Audio LLM: 0篇 | LLM Training: 12篇 | AI Agents: 5篇 | 其他: 2篇来源: HuggingFace(19)

重点推荐 ⭐

MolmoAct2: Action Reasoning Models for Real-world Deployment

面向真实部署的全开源视觉-语言-动作推理模型，性能超越 Pi-05、GPT-5 等闭源模型

作者: Haoquan Fang, Jiafei Duan et al.
来源: HuggingFace Trending (161 upvotes)
链接: arXiv | PDF
关键贡献: 提出 MolmoAct2 全开源动作推理模型，包含专用 VLM backbone MolmoER、最大开源双臂数据集、OpenFAST 动作分词器，以及自适应深度推理变体 MolmoThink。在 7 个基准上超越 Pi-05，MolmoER 在 13 个具身推理基准上超越 GPT-5 和 Gemini Robotics ER-1.5。
相关技术: vision-language-action model, flow-matching action expert, KV-cache conditioning, adaptive-depth reasoning, bimanual manipulation
代码/权重: 已开源 ✅

📄 Abstract 中文翻译

视觉-语言-动作 (VLA) 模型旨在为机器人提供单一通用控制器，但现有系统在真实部署关键指标上仍有不足。我们提出 MolmoAct2，一个面向实际部署的完全开源动作推理模型，从五个维度推进前作。引入 MolmoER 专用 VLM backbone，使用"先专化再演练"策略在 330 万样本上训练。发布三个新数据集，包括 720 小时遥操作双臂轨迹（迄今最大开源双臂数据集）。提供 OpenFAST 开放权重动作分词器。重新设计架构，通过逐层 KV-cache 条件机制将流匹配连续动作专家嫁接到离散 token VLM。提出 MolmoThink 自适应深度推理变体，仅对变化区域重预测深度 token。在 7 个基准上超越 Pi-05，MolmoER 在 13 个具身推理基准上超越 GPT-5 和 Gemini Robotics ER-1.5。

Beyond Perceptual Shortcuts: Causal-Inspired Debiasing Optimization for Generalizable Video Reasoning in Lightweight MLLMs

因果启发的去偏框架，让轻量多模态模型摆脱"感知捷径"，实现真正可泛化的视频推理

作者: Jingze Wu, Quan Zhang et al.
来源: HuggingFace (1 upvote)
链接: arXiv | PDF
关键贡献: 通过因果分析揭示 RL 微调使轻量模型依赖"感知捷径"而非真正推理能力。提出 VideoThinker 框架和 CDPO 算法，将主模型推离偏差逻辑、拉向正确泛化解。仅用 1% RL 训练数据即超越 VideoRFT-3B 达 3.2% 平均增益。
相关技术: causal debiasing, perceptual shortcuts, video reasoning, lightweight MLLM, CDPO
代码/权重: 已开源 ✅

📄 Abstract 中文翻译

尽管 RL 显著提升了 MLLM 的推理能力，但对轻量模型效果仍有限。我们通过因果分析揭示"感知偏差"现象：RL 微调迫使轻量模型优先采用数据偏差诱导的感知捷径。提出 VideoThinker 因果启发框架，通过两阶段去偏培养鲁棒推理——偏差感知训练构建"偏差模型"，CDPO 算法用排斥目标将主模型推离偏差逻辑。VideoThinker-R1 无需 SFT，仅用 1% RL 数据即在多个基准上超越 VideoRFT-3B 达 3.2%，VideoMME 上领先 7%，跨尺度超越 Video-UTR-7B。

Ctx2Skill: From Context to Skills — Can Language Models Learn from Context Skillfully?

自进化多智能体框架，让 LLM 从上下文中自主发现和精炼技能

作者: Shuzheng Si, Haozhe Zhao et al.
来源: HuggingFace Trending (120 upvotes)
链接: arXiv | PDF
关键贡献: Ctx2Skill 通过多智能体自博弈（挑战者-推理者-评判者）自主发现上下文特定技能，无需人工标注。引入跨时间回放机制防止对抗性崩溃。在四个上下文学习任务上一致提升解题率。
相关技术: context learning, self-evolving skill discovery, multi-agent self-play, cross-time replay
代码/权重: 未提及

📄 Abstract 中文翻译

许多现实任务要求 LM 在超越参数化知识的复杂上下文上推理，需要上下文学习。推理时技能增强是直观方案，但面临人工标注成本过高和缺乏外部反馈的挑战。Ctx2Skill 无需人类监督即可自主发现、精炼和选择上下文特定技能。核心是多智能体自博弈循环：挑战者生成探测任务，推理者在演进技能集指导下求解，评判者提供二元反馈。挑战者和推理者都通过积累技能进化，实现自动化技能发现和精炼。跨时间回放机制识别最佳平衡技能集，确保鲁棒泛化。所得技能可插入任何 LM，在 CL-bench 四个任务上一致提升解题率。

PhysicianBench: Evaluating LLM Agents in Real-World EHR Environments

首个基于真实 EHR 环境的 LLM 医疗智能体基准，最佳模型仅达 46% 成功率

作者: Ruoqi Liu, Imran Q. Mohiuddin et al.
来源: HuggingFace (6 upvotes)
链接: arXiv | PDF
关键贡献: 构建首个基于真实 EHR 环境的 LLM 医疗智能体基准，100 个长时域任务，平均 27 次工具调用/任务，670 个检查点。13 个前沿模型最佳仅 46% 成功率，开源最高仅 19%。
相关技术: EHR agent benchmark, clinical workflow, execution-grounded verification, long-horizon tasks
代码/权重: 未提及

📄 Abstract 中文翻译

我们介绍 PhysicianBench，用于在真实 EHR 环境中评估 LLM 智能体执行医生任务。现有基准关注静态知识或单步操作，无法捕捉真实临床长时域复合工作流。PhysicianBench 含 100 个长时域任务，改编自真实会诊，每任务由独立医生小组审核。任务在含真实患者记录的 EHR 中通过标准 API 访问，涵盖 21 个专科和多种工作流，平均需 27 次工具调用。670 个结构化检查点以执行接地方式评分。13 个模型中最佳仅 46% 成功率，开源最高 19%，揭示智能体能力与真实临床需求间的巨大差距。

🧠 LLM Training

T²PO: Uncertainty-Guided Exploration Control for Stable Multi-Turn Agentic RL

基于不确定性的探索控制，解决多轮智能体 RL 训练崩溃问题

作者: Haixin Wang, Hejie Cui et al.
来源: HuggingFace (4 upvotes)
链接: arXiv | PDF
关键贡献: T²PO 在 token 级监控不确定性触发思考干预，在 turn 级识别无进展交互并动态重采样。在 WebShop、ALFWorld、Search QA 上显著提升训练稳定性和性能。
相关技术: multi-turn RL, uncertainty-aware exploration, token-level thinking intervention, turn-level resampling
代码/权重: 已开源 ✅

📄 Abstract 中文翻译

多轮 RL 的进展提升了推理 LLM 在复杂交互任务上的表现，但训练不稳定性仍然普遍。我们指出这源于多轮设置中的低效探索——策略持续生成低信息动作。提出 T²PO，在 token 级监控不确定性动态并在边际变化低于阈值时触发思考干预，在 turn 级识别无探索进展的交互并动态重采样避免浪费 rollout。在 WebShop、ALFWorld 和 Search QA 上展示训练稳定性大幅提升和性能改善。

Injecting Distributional Awareness into MLLMs via RL for Deep Imbalanced Regression

分布感知 RL 解决多模态 LLM 长尾回归的"均值回归"问题

作者: Yao Du, Shanshan Li, Xiaomeng Li
来源: HuggingFace (1 upvote)
链接: arXiv | PDF
关键贡献: 揭示 SFT 和逐点回归奖励导致长尾分布下"回归到均值"。提出基于 GRPO 的分布感知 RL 框架，用一致性相关系数奖励引入批级比较监督，即插即用。
相关技术: imbalanced regression, distribution-aware RL, concordance correlation coefficient, GRPO
代码/权重: 未提及

📄 Abstract 中文翻译

MLLM 在长尾目标分布下的数值回归中表现不佳。Token 级 SFT 和逐点回归奖励使学习偏向高密度区域，导致回归到均值和尾部性能差。我们指出缺乏跨样本关系监督是关键局限。提出基于 Group Relative Policy Optimization 的分布感知 RL 框架，通过一致性相关系数奖励从相关性、尺度和均值三个维度对齐预测与真实分布。即插即用，无需架构修改。在长尾回归基准上一致优于 SFT 和现有方法，中等和少样本场景提升显著。

PRISM: Pre-alignment via Black-Box On-Policy Distillation for Multimodal RL

在 SFT 和 RLVR 之间插入分布对齐，缓解多模态推理分布漂移

作者: Sudong Wang, Weiquan Huang et al.
来源: HuggingFace (0 upvote)
链接: arXiv | PDF
关键贡献: PRISM 三阶段流水线在 SFT 和 RLVR 间插入基于策略蒸馏的分布对齐，MoE 判别器提供解耦纠偏信号。4B 和 8B 模型分别比基线提升 +4.4 和 +6.0 个百分点。
相关技术: on-policy distillation, distribution alignment, multimodal RL, MoE discriminator
代码/权重: 已开源 ✅

📄 Abstract 中文翻译

标准 LMM 后训练方案先 SFT 再 RLVR，但 SFT 引入分布漂移，不保留原始能力也不忠实匹配监督分布。多模态推理中感知和推理错误遵循不同漂移模式并在后续 RL 中复合。PRISM 通过在 SFT 和 RLVR 间插入显式分布对齐缓解漂移。基于策略蒸馏原则，将对齐构建为策略与 MoE 判别器（含感知和推理专家）间的黑盒对抗博弈，提供解耦纠偏信号。从 Gemini 3 Flash 策划 113K 高保真示范。在 Qwen3-VL 上，4B 和 8B 模型分别提升 +4.4 和 +6.0 点。

Beyond Perplexity: Character Distribution Signatures and the MDTA Benchmark for AI Text Detection

基于字符分布特征的 AI 文本检测新信号，与困惑度方法低相关可互补增强

作者: Priyadarshan Narayanasamy, Swastik Agrawal et al.
来源: HuggingFace (0 upvote)
链接: arXiv | PDF
关键贡献: 理论证明 AI 模型近似全局字符模式而人类展现领域特化分布，形成"分离之墙"。构建 MDTA 基准（642K 样本），LD-Score 与困惑度方法相关性仅 r=0.08-0.13，结合后在专业领域显著提升检测。
相关技术: character distribution signature, AI text detection, LD-Score, adversarial robustness
代码/权重: 数据已开源 ✅

📄 Abstract 中文翻译

免训练 AI 文本检测主要依赖模型对数概率，但随着 RLHF 使模型产生类人概率分布，这些方法面临性能天花板。我们提出基于字符分布签名的替代信号。理论证明 AI 模型在大规模领域平衡语料上训练后近似全局字符模式，而人类展现领域特化分布，形成"分离之墙"。构建 MDTA 基准含 642,274 个样本（4 模型、5 领域、3 温度、3 对抗策略）。引入 LD-Score，与困惑度方法相关性仅 r=0.08-0.13。与 DNA-DetectLLM、Binoculars、FastDetectGPT 集成后一致提升 AUROC 和 F1，专业领域提升显著。

BlenderRAG: High-Fidelity 3D Object Generation via Retrieval-Augmented Code Synthesis

检索增强生成 Blender 代码，编译成功率从 40.8% 提升至 70.0%

作者: Massimo Rondelli, Francesco Pivi et al.
来源: HuggingFace (1 upvote)
链接: arXiv | PDF
关键贡献: BlenderRAG 在 500 个专家验证的多模态示例上做检索增强生成，将编译成功率从 40.8% 提至 70.0%，语义对齐从 0.41 提至 0.77（CLIP 相似度），无需微调或专用硬件。
相关技术: retrieval-augmented generation, Blender code synthesis, 3D object generation, CLIP alignment
代码/权重: 将开源

📄 Abstract 中文翻译

从自然语言自动生成可执行 Blender 代码仍然困难，SOTA LLM 频繁产生语法错误和几何不一致对象。我们提出 BlenderRAG，基于 500 个专家验证的多模态示例（文本、代码、图像，50 个类别）的检索增强生成系统。通过在生成时检索语义相似示例，BlenderRAG 将四个 SOTA LLM 的编译成功率从 40.8% 提升至 70.0%，语义归一化对齐从 0.41 提升至 0.77（CLIP 相似度），无需微调或专用硬件即可部署。

ResRL: Boosting LLM Reasoning via Negative Sample Projection Residual Reinforcement Learning

负样本投影残差 RL，解耦正负响应的语义分布以提升推理多样性

作者: Zihan Lin, Xiaohan Wang et al.
来源: HuggingFace (1 upvote)
链接: arXiv | PDF
关键贡献: ResRL 将负 token 隐藏表示投影到 SVD 低秩正子空间，用投影残差调制负梯度，理论关联懒惰似然位移与正负梯度干扰。数学推理 Avg@16 超 NSR 9.4%，Pass@128 超 7.0%。
相关技术: negative sample projection, residual reinforcement learning, SVD low-rank subspace, advantage reweighting
代码/权重: 已开源 ✅

📄 Abstract 中文翻译

RLVR 增强 LLM 推理但常因正奖励过度激励导致生成多样性有限。负样本强化 (NSR) 通过加重负样本惩罚缓解此问题，但可能抑制正负响应共享的语义分布。提出负样本投影残差 RL (ResRL)，解耦正负响应的相似语义分布。理论关联懒惰似然位移 (LLD) 与正负梯度干扰，推导单前向代理上界引导保守优势重加权。ResRL 将负 token 隐藏表示投影到 SVD 低秩正子空间，用投影残差调制负梯度。在 12 个数学、代码、Agent 和函数调用基准上，ResRL 一致超越强基线，数学推理 Avg@16 超 NSR 9.4%，Pass@128 超 7.0%。

Tempus: A Temporally Scalable Resource-Invariant GEMM Framework for Versal AI Edge

时间可扩展 GEMM 框架，边缘 SoC 上固定 16 核实现高效 LLM 推理

作者: M. Grailoo, J. Núñez-Yáñez
来源: HuggingFace (0 upvote)
链接: arXiv | PDF
关键贡献: Tempus 用固定 16 核通过迭代图执行实现时间可扩展，607 GOPS/10.677W，PAU 指标比 ARIES 高 211.2 倍，URAM/DSP 利用率 0%，核心节省 22 倍。
相关技术: GEMM acceleration, AMD Versal AIE, temporal scaling, edge inference, dataflow streaming
代码/权重: 未提及

📄 Abstract 中文翻译

LLM 缩放定律表明模型质量随计算规模提升，但边缘部署严格限制计算、内存和功耗。GEMM 占推理时间达 90%，高效加速至关重要。现有 SOTA 通过空间扩展（分配数百核心）最大化性能，但在资源受限边缘 SoC 上因物理实现失败、带宽饱和和过高资源消耗而失效。Tempus 采用固定 16 核 AIE-ML 计算块，通过迭代图执行和 PL 中的算法分片实现可扩展性。高速级联流确保 II=1 的低延迟部分和归约，无死锁 DATAFLOW 协议最大化传输-计算重叠。607 GOPS@10.677W，PAU 突出因子比 ARIES 高 211.2 倍，0% URAM/DSP 利用率，22 倍核心节省。

PFlowNet: Perceptual Flow Network for Visually Grounded Reasoning

感知流网络，解耦感知与推理实现视觉接地推理新 SOTA

作者: Yangfu Li, Yuning Gong et al.
来源: HuggingFace (2 upvotes)
链接: arXiv | PDF
关键贡献: PFlowNet 解耦感知与推理建立自条件生成过程，通过变分 RL 融合多维奖励与邻近几何塑造。V* Bench 新 SOTA 90.6%，MME-RealWorld-lite 67.0%。
相关技术: perceptual flow, visual grounding, variational RL, self-conditioned generation, geometric shaping
代码/权重: 未提及

📄 Abstract 中文翻译

尽管大视觉语言模型取得成功，标准 MLE 等通用优化目标未能约束视觉轨迹，导致语言偏差和幻觉。现有方法引入视觉专家的几何先验作为额外监督，但此类监督偏向几何精度且推理效用有限。PFlowNet 放弃与专家先验的刚性对齐，实现可解释且更有效的视觉推理。具体地，解耦感知与推理建立自条件生成过程，通过变分 RL 融合多维奖励与邻近几何塑造，促进推理导向的感知行为同时保持视觉可靠性。提供可证性能保证和竞争力实证结果，V* Bench 达 90.6%，MME-RealWorld-lite 达 67.0% 新 SOTA。

Orbit-Space Particle Flow Matching

轨道空间粒子流匹配，单步推理度量误差降两个数量级

作者: Sinan Wang, Jinjin He et al.
来源: HuggingFace (2 upvotes)
链接: arXiv | PDF
关键贡献: OGPP 框架引入轨道空间规范化、粒子索引嵌入和弧长感知几何概率路径。最小表面基准上单步推理度量误差降两个数量级；ShapeNet 上 5 倍少步数匹配 SOTA，26 倍少参数达到可比 EMD。
相关技术: orbit-space canonicalization, particle flow matching, geometric probability paths, surface normals
代码/权重: 未提及

📄 Abstract 中文翻译

提出轨道空间几何概率路径 (OGPP)，一个粒子原生流匹配框架。基于两个洞察：(i) 粒子定义在置换对称性之上，匿名索引膨胀逐索引目标方差产生难以学习的弯曲流；(ii) 粒子处于物理空间，终端速度有物理含义可编码几何属性如法线。OGPP 包含三个关键组件：(1) 概率路径终端的轨道空间规范化，(2) 粒子索引嵌入实现角色专化，(3) 弧长感知终端速度的几何概率路径，将法线生成为流的副产品。在最小表面基准上度量误差降两数量级；ShapeNet 上 5 倍少步匹配 SOTA，26 倍少参数 5 倍少步达到可比 EMD。

VideoNet: A Large-Scale Dataset for Domain-Specific Action Recognition

覆盖 37 领域 1000 动作的动作识别基准，近 50 万视频 QA 对微调即超 8B 模型

作者: Tanush Yadav, Mohammadreza Salehi et al.
来源: HuggingFace (0 upvote)
链接: arXiv | PDF
关键贡献: VideoNet 覆盖 37 领域 1000 个领域特定动作。闭源与开源模型差距悬殊（Gemini 69.9% vs Qwen3-VL-8B 45.0%）。收集近 50 万视频 QA 对，微调 Molmo2-4B 即超越所有开源 8B 模型。
相关技术: domain-specific action recognition, video QA, VLM fine-tuning, few-shot evaluation
代码/权重: 未提及

📄 Abstract 中文翻译

视频的独特之处在于能捕捉跨越多帧的动作。然而，由于缺乏足够多样和具有挑战性的数据，现代 VLM 已不再评估动作识别能力。我们倡导重新聚焦领域特定动作，引入 VideoNet 基准覆盖 37 领域 1000 个动作。多选评估中闭源与开源差距显著：Gemini 3.1 Pro 69.9%，Qwen3-VL-8B 仅 45.0%。放宽为二值设置后 Qwen 仍仅 59.2%。提供 few-shot 示例后模型反应不一。收集首个大规模训练数据集近 50 万视频 QA 对，微调 Molmo2-4B 超越所有开源 8B 模型。

🤖 AI Agents

ESARBench: A Benchmark for Agentic UAV Embodied Search and Rescue

首个基于 UE5+AirSim 的 UAV 具身搜救智能体基准

作者: Daoxuan Zhang, Ping Chen et al.
来源: HuggingFace (0 upvote)
链接: arXiv | PDF
关键贡献: 提出 ESAR 任务和 ESARBench 基准，用 UE5+AirSim 构建 4 个 GIS 映射的高保真大场景，含动态天气/时间/线索位置变量，600 个真实救援任务。揭示空间记忆、空中适应和搜索效率-飞行安全权衡的瓶颈。
相关技术: embodied search and rescue, UAV agent, UE5 AirSim, GIS mapping, spatial memory
代码/权重: 已开源 ✅

📄 Abstract 中文翻译

MLLM 的快速进步赋予 UAV 出色的空间推理、语义理解和复杂决策能力，使其天然适合搜救 (SAR)。然而现有 UAV SAR 研究以传统视觉和路径规划方法为主，缺乏统一的具身智能体基准。我们提出具身搜救 (ESAR) 新任务，要求空中智能体自主探索复杂环境、识别救援线索并推理受害者位置。ESARBench 是首个全面评估 MLLM 驱动 UAV 智能体的基准，用 UE5 和 AirSim 构建 4 个基于真实 GIS 数据的高保真大场景，加入动态天气、时间和随机线索放置变量。600 个任务按真实救援案例建模，实验揭示空间记忆、空中适应和搜索效率-飞行安全权衡的关键瓶颈。

On Training LLMs for Long-Horizon Tasks: An Empirical Study of Horizon Length

系统研究任务时域长度对 LLM 智能体训练的影响，发现时域缩减是实现泛化的关键

作者: Sunghwan Kim, Junhee Cho et al.
来源: HuggingFace (0 upvote)
链接: arXiv | PDF
关键贡献: 系统实证研究任务时域长度对训练动态的影响，发现仅增加时域长度即构成训练瓶颈，引发探索困难和信用分配挑战。时域缩减是关键原则，且在缩减时域上训练的模型能更好地泛化到更长时域（时域泛化现象）。
相关技术: horizon length, training instability, credit assignment, horizon reduction, horizon generalization
代码/权重: 未提及

📄 Abstract 中文翻译

LLM 作为交互式智能体通过扩展环境交互序列解决任务已展现潜力。先前工作主要关注系统级优化或算法改进，但任务时域长度在塑造训练动态中的作用仍不清楚。本文通过控制任务构造系统研究时域长度，构建智能体面临相同决策规则和推理结构、仅动作序列长度不同的受控任务。结果表明仅增加时域长度即构成训练瓶颈，引发由探索困难和信用分配挑战驱动的严重训练不稳定。时域缩减是解决此限制的关键原则，能稳定训练并在长时域任务上取得更好性能。此外，时域缩减与更强的跨时域泛化相关：在缩减时域上训练的模型在推理时更有效地泛化到更长时域变体，我们称之为时域泛化现象。

LiveFMBench: Unveiling the Power and Limits of Agentic Workflows in Specification Generation

形式化规约生成的系统基准，揭示 LLM 直接提示存在约 20% 的不忠实行为

作者: Dong Xu, Jialun Cao et al.
来源: HuggingFace (0 upvote)
链接: arXiv | PDF
关键贡献: LiveFMBench 含 630 个 ACSL 标注 C 程序（360 个新收集防数据泄漏）。发现直接提示约 20% 性能来自不忠实行为（欺骗自动证明器或忽略代码约束），智能体流水线在低采样预算和困难数据集上特别有效，不正确的循环不变量是主导错误类型。
相关技术: formal specification generation, ACSL, data leakage mitigation, agentic pipeline, loop invariants
代码/权重: 数据已开源 ✅

📄 Abstract 中文翻译

形式化规约对严格程序验证至关重要，但编写正确规约仍然昂贵且难以自动化。我们首次系统研究 LLM 和智能体在 C 程序形式化规约生成中的能力与失败模式。引入 LiveFMBench，630 个 ACSL 标注 C 程序的持续演进基准，含 360 个新收集案例以缓解数据泄漏。评估直接提示、推理模式、智能体流水线，并进行细粒度失败分析。结果揭示朴素评估大幅高估性能——直接提示下模型可能展现欺骗自动证明器或忽略代码约束等不忠实行为，排除后真实准确率下降约 20%。增加采样和推理模式显著提升成功率，小模型从推理模式受益更多。智能体流水线在低采样预算和困难数据集上特别有效，且显著减少断言错误。

📌 其他值得关注

Maistros: A Greek LLM Adapted Through Knowledge Distillation From Large Reasoning Models

从大型推理模型蒸馏的希腊语 LLM，附带 CulturaQA 高质量数据集

作者: Nikolaos Giarelis, Charalampos Mastrokostas et al.
来源: HuggingFace (0 upvote)
链接: arXiv | PDF
关键贡献: 构建 CulturaQA 高质量希腊语 QA 数据集（LRM 生成+人工审核），提出可适配多语言的内存高效评估框架，Maistros 8B 成为当前最强开放权重希腊语 LLM。
相关技术: knowledge distillation, multilingual LLM, Greek NLP, reasoning model distillation
代码/权重: 未提及

📄 Abstract 中文翻译

LLM 显著推动 NLP 发展，其推理能力归功于大规模训练和模型容量。然而 LLM 在超分布复杂查询上仍可能出错。大型推理模型 (LRM) 引入显式推理过程提升准确性，但通常含数千亿参数，推理慢，限制常规环境部署。同时多语言 LLM 研究优先高资源语言，低资源语言表现有限。本文聚焦现代希腊语，贡献包括：CulturaQA 高质量 LRM 生成并人工审核的希腊语 QA 数据集；内存高效可适配评估框架；Maistros 8B 通过知识蒸馏和 CulturaQA 微调开发的最强开放权重希腊语 LLM；在 9 个希腊语 QA 数据集上对 9 个 LLM 的全面评估。

AcademiClaw: When Students Set Challenges for AI Agents

大学生真实学术工作流构建的双语智能体基准，最佳模型仅 55% 通过率

作者: Junjie Yu, Pengrui Lu et al.
来源: HuggingFace (8 upvotes)
链接: arXiv | PDF
关键贡献: 从 230 个学生提交中精选 80 个长时域任务，涵盖 25+ 专业领域（奥数、GPU 密集 RL、全栈调试等），16 个需 CUDA GPU。六维评分法+独立安全审计。6 个前沿模型最佳仅 55%，揭示任务领域间的锐利能力边界和 token 消耗-输出质量脱钩。
相关技术: academic agent benchmark, Docker sandbox, multi-dimensional rubrics, GPU-intensive tasks, safety audit
代码/权重: 已开源 ✅

📄 Abstract 中文翻译

OpenClaw 生态中的基准迄今仅评估助手级任务，学术级能力尚未检验。我们引入 AcademiClaw，80 个来自大学生真实学术工作流（作业、研究项目、竞赛、个人项目）的复杂长时域双语基准任务——这些任务是他们发现当前 AI 智能体无法有效解决的。从 230 个候选中经严格专家审核精选，涵盖 25+ 专业领域，从奥数级数学和语言学问题到 GPU 密集强化学习和全栈系统调试，16 个需 CUDA GPU 执行。每个任务在隔离 Docker 沙箱中执行，由六种互补技术组合的多维评分法评分，另有独立五类安全审计。6 个前沿模型中最佳仅 55% 通过率。分析揭示任务领域的锐利能力边界、模型间的策略分歧和 token 消耗-输出质量脱钩。

Generated on 2026-05-06T00:00:00Z | Sources: HuggingFace