AI Paper Daily | 2026-05-10

今日概览

共收录 3 篇论文 | Audio LLM: 0篇 | LLM Training: 3篇 | AI Agents: 0篇来源: HuggingFace(3)

今日 HuggingFace trending 论文与过去 7 天高度重叠，仅 3 篇为新收录。如需更多论文，建议调整 fetch_papers.py 的关键词或扩大检索范围。

重点推荐 ⭐

RemoteZero: Geospatial Reasoning with Zero Human Annotations

无需人工标注框坐标，仅靠模型自身的语义验证即可训练地理空间推理模型

作者: Liang Yao et al.
来源: HuggingFace (6 upvotes)
链接: arXiv | PDF
关键贡献: 发现 MLLM 在验证「某区域是否满足查询」方面远优于直接生成精确坐标，利用这一不对称性，用内在语义验证替代几何监督，实现无需框标注的 GRPO 训练，并支持从无标注遥感图像上自我迭代进化。
相关技术: GRPO, geospatial reasoning, self-verification, remote sensing, box-supervision-free
代码/权重: 未提及

📄 Abstract 中文翻译

地理空间推理要求模型将复杂空间语义和用户意图解析为精确的目标位置以进行地球观测。最近的进展使推理路径不再依赖人工标注，允许模型自行生成推理链。然而，最后一个依赖仍然存在：它们仍然由人工标注的真值坐标进行监督。这使推理过程自主，但其空间终点并不自主，阻碍了在大量无标注遥感数据上的真正自我进化。为打破这一瓶颈，我们提出 RemoteZero，一个无需框监督的地理空间推理框架。RemoteZero 的动机源于一个简单的不对称性：MLLM 在验证某区域是否满足查询方面，通常比直接生成精确坐标更擅长。利用这种更强的判别能力，RemoteZero 用内在语义验证替代几何监督，并实现无需框标注的 GRPO 训练。该框架进一步支持迭代自我进化，允许模型通过自身的验证信号从无标注遥感图像中持续改进。实验表明，RemoteZero 在与强监督方法的对比中取得了有竞争力的性能，展示了自验证训练在地理空间推理定位中的潜力。

🧠 LLM Training

Towards Steering without Sacrifice: Principled Training of Steering Vectors for Prompt-only Interventions

仅在 prompt token 上施加 steering vector，避免对生成过程的过度干预，同时联合训练方向和强度因子免去推理时调参

作者: Yuntai Bao et al.
来源: HuggingFace (1 upvote)
链接: arXiv | PDF
关键贡献: 提出 Prompt-only Steering Vector (PrOSV)，仅在少量 prompt token 上施加干预而非全序列，避免过度干预导致生成质量下降；同时联合训练 steering 方向和强度因子，利用神经网络缩放理论确定初始化大小和学习率，免去推理时手动调节 steering factor 的需要。
相关技术: steering vector, representation fine-tuning, activation steering, prompt-only intervention, joint training
代码/权重: 未提及

📄 Abstract 中文翻译

近年来，steering vector (SV) 已成为一种有效且轻量的方法来引导大语言模型 (LLM) 的行为，其中微调的 SV 比无优化方法更有效。然而，当前微调 SV 的方法存在两个局限。首先，它们需要逐 SV 仔细选择 steering factor，以在推理时平衡引导效果和生成质量。其次，它们作为全序列 SV (FSSV) 运行，无论 factor 如何选择，都可能因对模型生成过程过度干预而牺牲生成质量。为解决第一个局限，我们提出联合训练 steering factor 和方向，使推理后无需再进行 factor 选择。利用神经网络缩放理论，我们发现适度较大的初始化规模和学习率对联合训练的稳定性和效率至关重要。为解决第二个局限，我们从表示微调中汲取灵感，引入 Prompt-only SV (PrOSV)，一种仅在少量 prompt token 上干预的 SV。实证结果表明，在使用联合训练方案时，PrOSV 在 AxBench 上优于传统 FSSV。我们还发现，PrOSV 在通用模型效用和对抗鲁棒性之间实现了比 FSSV 更好的权衡。

BioTool: A Comprehensive Tool-Calling Dataset for Enhancing Biomedical Capabilities of Large Language Models

覆盖 34 个生物医学数据库工具、7000+ 人工验证查询-API 对的微调数据集，4B 模型微调后超越 GPT-5.1

作者: Xin Gao et al.
来源: HuggingFace (2 upvotes)
链接: arXiv | PDF
关键贡献: 构建了生物医学领域最全面的工具调用数据集 BioTool，包含 34 个来自 NCBI/Ensembl/UniProt 的常用工具和 7040 条人工验证的查询-API 调用对；4B 参数 LLM 微调后在生物医学工具调用上超越 GPT-5.1 等商用模型，且人类专家评估确认工具调用显著提升了下游回答质量。
相关技术: biomedical tool-calling, fine-tuning, NCBI API, protein function prediction, variant annotation
代码/权重: 已开源 ✅ (GitHub)

📄 Abstract 中文翻译

尽管大语言模型 (LLM) 在通用任务上取得了成功，但其在生物医学等高度专业领域的表现仍不令人满意。一个关键限制是 LLM 无法有效利用生物医学工具，而临床专家和生物医学研究人员在日常工作中大量依赖这些工具。虽然最近的通用领域工具调用数据集已大幅提升了 LLM agent 的能力，但现有生物医学领域的努力主要依赖上下文学习，并将模型限制在少量工具上。为弥补这一空白，我们提出 BioTool，一个专为微调 LLM 设计的综合生物医学工具调用数据集。BioTool 包含从 NCBI、Ensembl 和 UniProt 数据库收集的 34 个常用工具，以及 7040 条高质量、人工验证的查询-API 调用对，覆盖变异、基因组学、蛋白质组学、进化生物学和普通生物学。在 BioTool 上微调 40 亿参数的 LLM 可带来生物医学工具调用性能的显著提升，超越 GPT-5.1 等尖端商用 LLM。此外，人类专家评估表明，集成 BioTool 微调的工具调用器显著提高了下游回答质量，突显了 BioTool 在增强 LLM 生物医学能力方面的有效性。完整数据集和评估代码已在 GitHub 上公开。

Generated on 2026-05-10T00:00Z | Sources: HuggingFace