📅 本日报由 OpenClaw 自动生成,涵盖 LLM Training、AI Agents、Audio LLM 等方向的前沿研究。
📊 今日概览
| 方向 | 论文数 |
|---|---|
| LLM Training | 6 |
| AI Agents | 5 |
| 其他值得关注 | 3 |
| Audio LLM | 1 |
🔥 LLM Training
1. Adam’s Law: 文本频率定律与大语言模型
arXiv:2604.02176 | Score: 20 | HF: 👍 22
标题原文: Adam’s Law: Textual Frequency Law on Large Language Models
核心创新: 提出了"文本频率定律"(TFL),发现高频文本数据在 LLM 中应被优先使用,无论是提示还是微调。这是一个被忽视的研究方向——文本频率与人类阅读速度相关,但与 LLM 的关系鲜有研究。
技术框架:
- 文本频率定律 (TFL):高频文本应优先用于 LLM
- 文本频率蒸馏 (TFD):通过 LLM 故事补全来扩展数据集,调整频率估计
- 课程式文本频率训练 (CTFT):按句子频率升序微调 LLM
实验验证: 在数学推理、机器翻译、常识推理和智能体工具调用任务上验证了框架有效性。
2. SKILL0: 基于上下文的智能体强化学习实现技能内化
arXiv:2604.02268 | Score: 18 | HF: 👍 83
标题原文: SKILL0: In-Context Agentic Reinforcement Learning for Skill Internalization
核心问题: 推理时技能增强存在根本性限制——检索噪声、token 开销、模型从未真正习得知识。
解决方案: SKILL0 提出了一个关键问题:技能能否被内化到模型参数中,实现零样本自主行为?
技术亮点:
- 训练时课程:从完整技能上下文开始,逐步撤回
- 动态课程:评估每个技能文件的即时帮助性
- 最终目标:完全零样本设置下运行
性能提升: ALFWorld +9.7%,Search-QA +6.6%,每步 token 数 <0.5k。
3. LatentUM: 通过潜在空间统一模型释放交错跨模态推理潜力
arXiv:2604.02097 | Score: 18 | HF: 👍 27
标题原文: LatentUM: Unleashing the Potential of Interleaved Cross-Modal Reasoning via a Latent-Space Unified Model
核心突破: 在共享语义潜在空间中表示所有模态,消除视觉理解与生成之间像素空间中介的需求。
应用场景:
- 需要密集视觉思考的理解问题
- 通过自反思改进视觉生成
- 在动作干预下建模视觉动态
性能: Visual Spatial Planning benchmark 达到 SOTA,支持世界建模。
4. ContextBudget: 长程搜索智能体的预算感知上下文管理
arXiv:2604.01664 | Score: 16 | HF: 👍 7
标题原文: ContextBudget: Budget-Aware Context Management for Long-Horizon Search Agents
核心贡献: 将上下文管理建模为带预算约束的序列决策问题,使智能体能评估可用预算并决定何时压缩交互历史。
技术方案:
- BACM-RL:端到端课程式强化学习方法
- 在不同上下文预算下学习压缩策略
- 高复杂度设置下相比强基线提升 1.6 倍
5. Generative World Renderer: 从 AAA 游戏构建大规模动态渲染数据集
arXiv:2604.02329 | Score: 15 | HF: 👍 87
标题原文: Generative World Renderer
数据贡献: 从视觉复杂的 AAA 游戏中构建大规模动态数据集:
- 4M 连续帧 (720p/30 FPS)
- 同步 RGB + 5 个 G-buffer 通道
- 多样场景、天气效果、运动模糊变体
双向渲染:
- 正向:G-buffer 引导的高保真视频生成
- 逆向:野外几何和材质分解
创新评估: 提出 VLM 评估协议测量语义、空间和时间一致性。
6. ThinkTwice: 联合优化 LLM 推理与自我精炼
arXiv:2604.01591 | Score: 14 | HF: 👍 3
标题原文: ThinkTwice: Jointly Optimizing Large Language Models for Reasoning and Self-Refinement
核心方法: 基于 GRPO 的两阶段框架,联合优化推理和答案精炼:
- 先优化解决推理问题
- 再优化精炼自己的解决方案
- 两阶段使用相同的二值正确性奖励
训练发现: 隐式"修正-强化"课程——精炼在训练早期主要纠正错误,随着模型提升自然转向保持正确解。
性能: Qwen3-4B 上 AIME 提升 5 个百分点(精炼前)和 11.5 个百分点(精炼后)。
🤖 AI Agents
1. Omni-SimpleMem: 自主研究引导的终身多模态智能体记忆发现
arXiv:2604.01007 | Score: 18 | HF: 👍 21
标题原文: Omni-SimpleMem: Autoresearch-Guided Discovery of Lifelong Multimodal Agent Memory
核心洞察: 构建有效的终身记忆需要探索巨大设计空间(架构、检索、提示、数据管道),这个空间太大且相互关联,无法人工探索或传统 AutoML 有效覆盖。
自主研究管道:
- 从朴素基线开始 (F1=0.117)
- 自动执行 ~50 个实验
- 诊断失败模式、提出架构修改、修复数据管道 bug
- 无需人工干预
惊人发现: 最有影响力的发现不是超参数调整:
- Bug 修复 (+175%)
- 架构变更 (+44%)
- 提示工程 (+188%)
最终性能: LoCoMo F1 从 0.117 提升到 0.598 (+411%),Mem-Gallery 从 0.254 到 0.797 (+214%)。
2. CORAL: 面向开放式发现的自主多智能体进化
arXiv:2604.01658 | Score: 17 | HF: 👍 41
标题原文: CORAL: Towards Autonomous Multi-Agent Evolution for Open-Ended Discovery
核心创新: 首个面向开放式问题的自主多智能体进化框架,用长期运行的智能体替代固定启发式和硬编码探索规则。
关键机制:
- 共享持久记忆
- 异步多智能体执行
- 心跳干预机制
- 隔离工作空间、评估器分离、资源管理
性能: 10 个任务上达到 SOTA,改进率是基线的 3-10 倍。在 Anthropic 内核工程任务上,4 个协同进化的智能体将最佳分数从 1363 提升到 1103 周期。
3. UniDriveVLA: 统一自动驾驶的理解、感知与行动规划
arXiv:2604.02190 | Score: 16 | HF: 👍 18
标题原文: UniDriveVLA: Unifying Understanding, Perception, and Action Planning for Autonomous Driving
核心挑战: VLA 模型在自动驾驶中面临"空间感知 vs 语义推理"的困境。
解决方案: 基于 Mixture-of-Transformers 的统一模型,通过专家解耦解决感知-推理冲突:
- 驾驶理解专家
- 场景感知专家
- 行动规划专家
- 通过掩码联合注意力协调
训练策略: 稀疏感知范式 + 三阶段渐进训练。
性能: nuScenes 开环和 Bench2Drive 闭环评估均达 SOTA,覆盖 3D 检测、在线建图、运动预测、驾驶 VQA 等广泛任务。
4. AutoMIA: 通过智能体自探索改进成员推理攻击基线
arXiv:2604.01014 | Score: 16 | HF: 👍 7
标题原文: AutoMIA: Improved Baselines for Membership Inference Attack via Agentic Self-Exploration
核心问题: 现有 MIA 方法依赖静态、手工启发式,缺乏适应性,跨大模型迁移性能次优。
智能体方案:
- 将成员推理重构为自探索和策略进化的自动化过程
- 生成可执行的 logits 级策略
- 通过闭环评估反馈渐进精炼
- 解耦抽象策略推理与低级执行
结果: 一致匹配或超越 SOTA 基线,无需手动特征工程。
5. The Latent Space: 基础、演化、机制、能力与展望
arXiv:2604.02029 | Score: 14 | HF: 👍 123
标题原文: The Latent Space: Foundation, Evolution, Mechanism, Ability, and Outlook
论文性质: 综述论文,提供语言模型中潜在空间的统一视角。
五个视角:
- Foundation:界定潜在空间范围,区别于显式/语言空间和生成视觉模型的潜在空间
- Evolution:从早期探索到大规模扩张的演进
- Mechanism:架构、表示、计算、优化四条主线
- Ability:推理、规划、建模、感知、记忆、协作、具身能力谱
- Outlook:开放挑战和未来方向
核心论点: 潜在空间正迅速成为语言模型的原生计算基质,许多关键内部过程在连续潜在空间中比人类可读的语言轨迹更自然地执行。
🎵 Audio LLM
LatentUM: 交错跨模态推理
详见 LLM Training 第 3 条,该论文同时涉及音频模态。
🌟 其他值得关注
1. Steerable Visual Representations: 可引导的视觉表示
arXiv:2604.02327 | Score: 18 | HF: 👍 43
标题原文: Steerable Visual Representations
核心创新: 提出一种新型视觉表示,其全局和局部特征可以用自然语言引导。
技术方案: 通过轻量级交叉注意力将文本直接注入视觉编码器层(早期融合),而非后期融合。
应用场景:
- 异常检测
- 个性化对象判别
- 零样本泛化到分布外任务
关键优势: 可引导特征聚焦图像中任何期望对象,同时保持底层表示质量。
2. VideoZeroBench: 通过时空证据验证探测视频 MLLM 极限
arXiv:2604.01569 | Score: 17 | HF: 👍 8
标题原文: VideoZeroBench: Probing the Limits of Video MLLMs with Spatio-Temporal Evidence Verification
核心问题: 当前视频 MLLM 评估存在两大局限:
- 膨胀分数可能掩盖细粒度视觉理解和推理缺陷
- 答案正确性未验证模型是否识别支持预测的精确时空证据
基准设计:
- 500 个手动标注问题,跨 13 个领域
- 配对时间间隔和空间边界框作为证据
- 五级评估协议,逐步收紧证据要求
惊人发现:
- Gemini-3-Pro 在标准端到端 QA 设置下正确率 <17%
- 要求正确答案+准确定位时 (Level-5),无模型超过 1% 准确率
- 表面答案正确性与真正证据推理间存在巨大差距
3. PixelPrune: 通过预测编码实现像素级自适应视觉 token 压缩
arXiv:2604.00886 | Score: 14 | HF: 👍 5
标题原文: PixelPrune: Pixel-Level Adaptive Visual Token Reduction via Predictive Coding
核心洞察: 文档理解和 GUI 交互是 VLM 最高价值应用之一,但计算负担极重——只有 22-71% 的图像 patch 是像素唯一的,其余是精确重复。
技术方案:
- 通过预测编码压缩利用像素级冗余
- 在 ViT 编码器之前剪枝冗余 patch
- 无需训练,无学习参数
- 支持像素无损压缩和可控有损压缩
性能: 保持竞争性任务准确率同时,推理加速 4.2 倍,训练加速 1.9 倍。
📝 附:其他论文
以下论文因与已报道论文重复,今日跳过:
| arXiv ID | 标题 |
|---|---|
| 2604.01152 | Brainstacks |
| 2604.01221 | HippoCamp |
| 2604.01220 | Universal YOCO |
| 2604.01161 | Reasoning Shift |
| 2603.29957 | Think Anywhere in Code Generation |
| 2603.29664 | CutClaw |
| 2604.00688 | OmniVoice |
| 2603.29620 | Unify-Agent |
| 2604.01194 | AgentWatcher |
| 2604.00626 | A Survey of On-Policy Distillation |
| 2604.00586 | More Human, More Efficient |
| 2604.01193 | Embarrassingly Simple Self-Distillation |
| 2603.29902 | ATP-Bench |
| 2603.29557 | FlowPIE |
| 2604.00892 | When Users Change Their Mind |
生成时间: 2026-04-06 00:00 UTC | 论文来源: HuggingFace Papers