AI Paper Daily | 2026-05-03

今日概览

共收录 2 篇论文 | Audio LLM: 0篇 | LLM Training: 2篇 | AI Agents: 0篇来源: HuggingFace(2)

📋 今日 HuggingFace trending 论文大多已在近几日日报中覆盖（去重过滤后仅剩 2 篇新论文），arXiv 端因 API 限流未能获取新论文。明日抓取恢复后预计覆盖更广。

🧠 LLM Training

Repetition over Diversity: High-Signal Data Filtering for Sample-Efficient German Language Modeling

对非英语 LLM，重复高质量数据比一次性遍历大量低质量数据更有效——德语场景下，7 个 epoch 的高质量子集仍优于单遍大语料。

作者: Ansar Aynetdinov, Patrick Haller, Alan Akbik
来源: HuggingFace
链接: arXiv | PDF
关键贡献: 针对德语 LLM 训练，系统性地对比了"质量过滤+多 epoch 重复"和"轻过滤+单遍训练"两种策略。在 5 亿网页文档上构建分层质量过滤器后，发现重复高质量数据在多个模型规模和 token 预算下均一致优于单遍训练，且性能差距在 7 个 epoch 后仍然存在。发布的 Boldt 系列模型仅用 10-360 倍更少的 token 就达到了德语 SOTA。
相关技术: quality filtering, multi-epoch training, non-English LLM, data curation, language modeling efficiency
代码/权重: 已开源 ✅

📄 Abstract 中文翻译

近期研究表明，将大规模英文网络语料过滤为高质量子集可显著提升训练效率。然而，对于德语、法语、日语等高资源非英语语言，激进的过滤策略带来了一个战略困境：是从业者应该优先考虑多样性——在大量轻度过滤的网络数据上训练一次，还是优先考虑质量——严格过滤出高质量核心并多次 epoch 重复训练？我们针对德语研究了这一权衡，构建了应用于 5 亿网页文档的分层质量过滤器，比较了在过滤子集上的多 epoch 训练与在多样性语料上的单遍训练。我们在多个模型规模和 token 预算下的实验表明，重复高质量数据一致优于在更大但过滤较少的数据集上的单遍训练。值得注意的是，即使在 7 个 epoch 后，性能差距仍然存在。我们的发现表明，对于非英语 LLM，通过质量过滤实现语义集中比单纯最大化唯一数据量提供了更可行的语言建模路径。我们发布了德语语言模型（称为 Boldt）以及清理后的评估基准。实验表明，尽管训练 token 数量比可比模型少 10-360 倍，它们仍取得了最先进的结果。

ViPO: Visual Preference Optimization at Scale

构建了百万级图像+三十万视频的偏好数据集 ViPO，并提出 Poly-DPO 自适应优化目标——但当数据质量足够高时，Poly-DPO 自然退化为标准 DPO。

作者: Ming Li, Jie Wu, Justin Cui, Xiaojie Li, Rui Wang, Chen Chen
来源: HuggingFace
链接: arXiv | PDF
关键贡献: 提出两个互补贡献来解决视觉偏好优化的规模化瓶颈：(1) Poly-DPO，在 DPO 目标中引入多项式项，根据数据集特征动态调整模型置信度，在有噪声数据上比 Diffusion-DPO 在 GenEval 上高出 6.87/2.32 分；(2) ViPO 数据集，包含 1M 图像对（1024px，5 类）和 300K 视频对（720p+，3 类），使用 SOTA 生成模型和多样化 prompt 确保可靠的偏好信号。有趣的是，当数据质量足够高时，Poly-DPO 的最优配置自然收敛到标准 DPO，验证了数据质量本身对规模化偏好优化的核心作用。
相关技术: preference optimization, DPO, visual generation, data curation, diffusion models
代码/权重: 未提及

📄 Abstract 中文翻译

虽然偏好优化对于改进视觉生成模型至关重要，但如何有效扩展这一范式在很大程度上仍未被探索。当前开源偏好数据集包含冲突的偏好模式，其中胜者在某些维度上表现优异但在其他维度上不如败者。在这种噪声数据集上朴素地优化无法学习到偏好，阻碍了有效的规模化。为了增强对噪声的鲁棒性，我们提出了 Poly-DPO，它在 DPO 目标中扩展了一个额外的多项式项，根据数据集特征动态调整模型置信度，使其能够在不同数据分布下有效学习。除了有偏的模式外，现有数据集还存在分辨率低、prompt 多样性有限和分布不平衡的问题。为了通过解决数据瓶颈来促进大规模视觉偏好优化，我们构建了 ViPO，一个大规模偏好数据集，包含 1024px 的 1M 图像对（5 个类别）和 720p+ 的 300K 视频对（3 个类别）。最先进的生成模型和多样化 prompt 确保了可靠的偏好信号和平衡的分布。值得注意的是，当将 Poly-DPO 应用于我们的高质量数据集时，最优配置收敛到标准 DPO。这种收敛验证了数据质量以及 Poly-DPO 的自适应特性：在数据质量足够时，复杂的优化变得不必要，但在数据不完美时仍然有价值。我们在视觉生成模型上验证了我们的方法。在 Pick-a-Pic V2 等噪声数据集上，Poly-DPO 在 GenEval 上比 Diffusion-DPO 分别为 SD1.5 和 SDXL 取得了 6.87 和 2.32 的提升。对于 ViPO，模型取得了远超在现有开源偏好数据集上训练的性能。这些结果确认，同时解决算法适应性和数据质量对于规模化视觉偏好优化至关重要。

Generated on 2026-05-03T00:00:00Z | Sources: HuggingFace | Note: arXiv API rate-limited today, HuggingFace trending papers mostly covered in recent daily reports.