今日概览
共收录 14 篇论文 | Audio LLM: 1篇 | LLM Training: 7篇 | AI Agents: 5篇 | 其他值得关注: 1篇 来源: HuggingFace(14)
重点推荐 ⭐
MSA: Memory Sparse Attention for Efficient End-to-End Memory Model Scaling to 100M Tokens
端到端可训练的记忆稀疏注意力框架,首次实现 1 亿 token 级别的长上下文推理
- 作者: Yu Chen, Runkai Chen, Sheng Yi et al.
- 来源: HuggingFace Trending (34 upvotes)
- 链接: arXiv | PDF
- 关键贡献: 提出 Memory Sparse Attention(MSA)框架,通过可扩展稀疏注意力和文档级 RoPE 实现训练和推理的线性复杂度。从 16K 扩展到 1 亿 token 仅有不到 9% 的性能损失,且可在 2×A800 GPU 上完成 1 亿 token 推理。这为大模型的终身记忆能力提供了实际可行的解决方案。
- 相关技术: sparse attention, KV cache compression, document-wise RoPE, memory interleaving, memory parallel
- 代码/权重: 未提及
📄 Abstract 中文翻译
长期记忆是人类智能的基石。使 AI 能够处理终身规模的信息一直是该领域的长期追求。由于全注意力架构的限制,大语言模型(LLM)的有效上下文长度通常限制在 100 万 token。现有方法,如混合线性注意力、固定大小记忆状态(例如 RNN)以及 RAG 或 Agent 系统等外部存储方法,都试图扩展这一限制。然而,它们往往存在以下问题:随着上下文长度增长,精度严重下降且延迟迅速增加;无法动态修改记忆内容;或缺乏端到端优化。这些瓶颈阻碍了大规模语料摘要、数字孪生和长历史 Agent 推理等复杂场景,同时限制了记忆容量并减慢推理速度。我们提出了 Memory Sparse Attention (MSA),一个端到端可训练、高效且大规模可扩展的记忆模型框架。通过可扩展稀疏注意力和文档级 RoPE (document-wise RoPE) 等核心创新,MSA 在训练和推理中实现了线性复杂度,同时保持了卓越的稳定性,从 16K 扩展到 1 亿 token 时退化不超过 9%。此外,KV 缓存压缩 (KV cache compression) 结合 Memory Parallel 使得在 2×A800 GPU 上进行 1 亿 token 推理成为可能。我们还提出了 Memory Interleaving 来促进跨分散记忆片段的复杂多跳推理。MSA 在长上下文基准测试中显著超越了前沿 LLM、最先进的 RAG 系统和领先的记忆 Agent。这些结果表明,通过解耦记忆容量与推理,MSA 为通用模型提供了一个可扩展的基础,赋予其内在的终身规模记忆能力。
T-MAP: Red-Teaming LLM Agents with Trajectory-aware Evolutionary Search
首个针对 MCP 生态的 LLM Agent 红队对抗方法,揭示了多步工具调用中的安全漏洞
- 作者: Hyomin Lee, Sangwoo Park, Yumin Choi, Sohyun An, Seanie Lee et al.
- 来源: HuggingFace Trending (34 upvotes)
- 链接: arXiv | PDF
- 关键贡献: 针对 LLM Agent 在多步工具执行中暴露的安全漏洞,提出轨迹感知的进化搜索方法 T-MAP。特别关注 MCP 生态中的 Agent 安全问题,在 GPT-5.2、Gemini-3-Pro、Qwen3.5、GLM-5 等前沿模型上均展现出显著的攻击实现率(ARR),揭示了自主 Agent 中此前未被充分探索的安全漏洞。
- 相关技术: red-teaming, Model Context Protocol, trajectory-aware evolutionary search, attack realization rate, multi-step tool execution
- 代码/权重: 未提及
📄 Abstract 中文翻译
虽然此前的红队对抗工作主要聚焦于从大语言模型(LLM)中引出有害文本输出,但这类方法无法捕获通过多步工具执行而暴露的 Agent 特有漏洞,尤其是在 Model Context Protocol (MCP) 等快速增长的生态系统中。为弥补这一差距,我们提出了一种轨迹感知的进化搜索方法 T-MAP,该方法利用执行轨迹来引导对抗性提示词的发现。我们的方法能够自动生成不仅绕过安全护栏、而且通过实际工具交互可靠地实现有害目标的攻击。在多种 MCP 环境中的实证评估表明,T-MAP 在攻击实现率(ARR)上大幅超越基线方法,并且对包括 GPT-5.2、Gemini-3-Pro、Qwen3.5 和 GLM-5 在内的前沿模型仍然有效,从而揭示了自主 LLM Agent 中此前未被充分探索的漏洞。
IQuest-Coder-V1 Technical Report
全新代码大模型系列,提出代码流多阶段训练范式,在 Agent 软件工程任务中达到 SOTA
- 作者: Jian Yang, Wei Zhang, Shawn Guo, Zhengmao Ye, Lin Jing et al.
- 来源: HuggingFace Trending (1 upvote)
- 链接: arXiv | PDF
- 关键贡献: 提出 code-flow 多阶段训练范式,包括预训练、结合推理和 Agent 轨迹的中间训练(32k/128k 上下文)、以及分支后训练(思考路径用推理驱动 RL,指令路径用通用辅助优化)。系列模型(7B/14B/40B/40B-Loop)在 Agent 软件工程、竞赛编程和复杂工具使用三个维度均达到 SOTA。
- 相关技术: code-flow training, reasoning-driven RL, recurrent loop mechanism, agentic software engineering, 128k-context repository-scale training
- 代码/权重: 已开源 ✅(完整白盒检查点链)
📄 Abstract 中文翻译
在本报告中,我们介绍了 IQuest-Coder-V1 系列(7B/14B/40B/40B-Loop),这是一个全新的代码大语言模型(LLM)家族。超越静态代码表示,我们提出了代码流(code-flow)多阶段训练范式,通过管线的不同阶段捕获软件逻辑的动态演化。我们的模型通过进化管线开发:首先是包含代码事实、仓库和补全数据的初始预训练。随后,我们实施了一个专门的中间训练阶段,在 32k 上下文中整合推理和 Agent 轨迹,在 128k 上下文中整合仓库规模数据,以构建深层逻辑基础。模型最终通过专门的编码能力后训练完成,分为两条专业路径:思考路径(利用推理驱动的强化学习)和指令路径(为通用辅助优化)。IQuest-Coder-V1 在代码智能的关键维度上取得了与竞争模型相比的最先进性能:Agent 软件工程、竞赛编程和复杂工具使用。为解决部署限制,IQuest-Coder-V1-Loop 变体引入了一种循环机制,旨在优化模型容量与部署足迹之间的权衡,提供了一条架构增强的效率-效果权衡路径。我们相信 IQuest-Coder-V1 系列的发布(包括从预训练基座到最终思考和指令模型的完整白盒检查点链)将推进自主代码智能和现实世界 Agent 系统的研究。
🔊 Audio LLM
Nudging Hidden States: Training-Free Model Steering for Chain-of-Thought Reasoning in Large Audio-Language Models
无需训练即可提升大型音频-语言模型推理能力的模型引导方法,发现跨模态迁移现象
- 作者: Lok-Lam Ieong, Chia-Chien Chen, Chih-Kai Yang, Yu-Han Huang, An-Yu Cheng et al.
- 来源: HuggingFace Trending (2 upvotes)
- 链接: arXiv | PDF
- 关键贡献: 研究了推理时模型引导(model steering)作为提升大型音频-语言模型(LALM)推理能力的无训练方法。提出三种利用多样信息源的策略,在 4 个 LALM 和 4 个基准上实现最高 4.4% 的精度提升。值得注意的是,发现了跨模态迁移现象——从少量文本样本中提取的引导向量能有效指导语音推理,展现了极高的数据效率。
- 相关技术: chain-of-thought prompting, model steering vectors, large audio-language models, cross-modal transfer, inference-time intervention
- 代码/权重: 未提及
📄 Abstract 中文翻译
链式思维(Chain-of-thought, CoT)提示已被扩展到大型音频-语言模型(LALM)以引出推理,然而在不进行训练的情况下增强其有效性仍然具有挑战性。我们研究了推理时模型引导(model steering)作为一种无训练方法来改进 LALM 推理。我们引入了三种利用多样信息源的策略,并在 4 个 LALM 和 4 个基准上进行了评估。结果显示相比 CoT 提示总体精度提升最高可达 4.4%。值得注意的是,我们发现了一种跨模态迁移现象:从少量文本样本中提取的引导向量能够有效指导基于语音的推理,展现了极高的数据效率。我们还检验了超参数敏感性以理解这些方法的鲁棒性。我们的发现将模型引导定位为增强 LALM 推理能力的一个实用方向。
🧠 LLM Training
PLDR-LLMs Reason At Self-Organized Criticality
从自组织临界态的角度解释 LLM 推理能力的涌现机制
- 作者: Burc Gokden
- 来源: HuggingFace Trending (2 upvotes)
- 链接: arXiv | PDF
- 关键贡献: 证明在自组织临界态(self-organized criticality)下预训练的 PLDR-LLM 在推理时展现出推理能力,其特征类似于二阶相变。提出可以仅从模型演绎输出的全局参数值量化推理能力,无需在策划的基准数据集上评估。为理解 LLM 推理能力的涌现提供了物理学视角的自洽解释。
- 相关技术: self-organized criticality, second-order phase transition, PLDR-LLM, renormalization group, order parameter
- 代码/权重: 未提及
📄 Abstract 中文翻译
我们展示了在自组织临界态(self-organized criticality)下预训练的 PLDR-LLM 在推理时表现出推理能力。PLDR-LLM 在临界态下的演绎输出特征类似于二阶相变(second-order phase transitions)。在临界态下,关联长度发散,演绎输出达到亚稳态稳定状态。稳态行为表明演绎输出从训练数据集中学习了等价于标度函数(scaling functions)、普适类(universality classes)和重整化群(renormalization groups)的表示,在此过程中获得了泛化和推理能力。然后我们可以从推理时模型演绎输出参数的全局统计量定义一个序参量(order parameter)。当序参量在临界态附近接近零时,PLDR-LLM 的推理能力更强。这一观察得到了在近临界态和亚临界态训练的模型基准分数的支持。我们的结果为大语言模型中推理如何涌现提供了一个自洽的解释,并且推理能力可以仅从稳态下演绎输出的全局模型参数值来量化,无需通过归纳输出在策划的基准数据集上进行推理和理解的评估。
Representation Alignment for Just Image Transformers is not Easier than You Think
揭示 REPA 在像素空间扩散 Transformer 上失效的原因,并提出 PixelREPA 解决方案
- 作者: Jaeyo Shin, Jiwook Kim, Hyunjung Shim
- 来源: HuggingFace Trending (8 upvotes)
- 链接: arXiv | PDF
- 关键贡献: 发现表示对齐方法 REPA 在像素空间扩散 Transformer(JiT)上不仅无效甚至有害,根源在于信息不对称——去噪在高维图像空间进行而语义目标被强压缩。提出 PixelREPA,通过掩码 Transformer 适配器约束对齐,将 JiT-B/16 的 FID 从 3.66 降至 3.17,收敛速度提升超过 2 倍。
- 相关技术: REPA, pixel-space diffusion, Just image Transformers, masked transformer adapter, FID optimization
- 代码/权重: 已开源 ✅
📄 Abstract 中文翻译
表示对齐(Representation Alignment, REPA)已成为在潜在空间中加速扩散 Transformer (Diffusion Transformers) 训练的简单方法。同时,像素空间扩散 Transformer,如 Just image Transformers (JiT),因其去除了对预训练分词器的依赖从而避免了潜在扩散的重建瓶颈而日益受到关注。本文表明 REPA 在 JiT 上可能失效。随着训练进行,REPA 使 JiT 的 FID 变差,并在 ImageNet 上预训练语义编码器表示空间中紧密聚类的图像子集上导致多样性坍塌。我们将这一失败追溯到信息不对称:去噪发生在高维图像空间中,而语义目标被强压缩,使得直接回归成为一个捷径目标。我们提出 PixelREPA,通过变换对齐目标并使用掩码 Transformer 适配器(Masked Transformer Adapter,结合浅层 Transformer 适配器与部分 token 掩码)来约束对齐。PixelREPA 同时改善了训练收敛速度和最终质量。PixelREPA 将 JiT-B/16 的 FID 从 3.66 降至 3.17,Inception Score (IS) 从 275.1 提升至 284.6(ImageNet 256×256),同时实现了超过 2 倍的收敛加速。最终 PixelREPA-H/16 达到 FID=1.81、IS=317.2。我们的代码可在 https://github.com/kaist-cvml/PixelREPA 获取。
6Bit-Diffusion: Inference-Time Mixed-Precision Quantization for Video Diffusion Models
动态混合精度量化框架,实现视频扩散模型 1.92 倍加速和 3.32 倍内存压缩
- 作者: Rundong Su, Jintao Zhang, Zhihang Yuan, Haojie Duanmu, Jianfei Chen et al.
- 来源: HuggingFace Trending (4 upvotes)
- 链接: arXiv | PDF
- 关键贡献: 发现 Transformer 块的输入输出差异与内部线性层量化敏感度之间存在强线性相关性。据此设计轻量预测器在推理时动态分配 NVFP4/INT8 精度,并提出时间增量缓存(TDC)跳过时间不变块的计算。实现 1.92 倍端到端加速和 3.32 倍内存压缩。
- 相关技术: mixed-precision quantization, NVFP4/INT8, temporal delta cache, video diffusion transformer, post-training quantization
- 代码/权重: 未提及
📄 Abstract 中文翻译
扩散 Transformer (Diffusion Transformers) 在视频生成方面展现了卓越能力。然而,其实际部署受到高内存使用和计算成本的严重限制。训练后量化(Post-Training Quantization)提供了一种减少内存使用和提升计算速度的实用方法。现有量化方法通常采用静态位宽分配,忽略了激活值在不同扩散时间步上的量化难度差异,导致效率和质量之间的权衡不够理想。本文提出了一种推理时 NVFP4/INT8 混合精度量化框架。我们发现块的输入输出差异与其内部线性层的量化敏感度之间存在强线性相关性。基于这一洞察,我们设计了一个轻量级预测器,动态地将 NVFP4 分配给时间稳定的层以最大化内存压缩,同时选择性地为波动层保留 INT8 以确保鲁棒性。这种自适应精度策略实现了激进量化而不损害生成质量。此外,我们观察到 Transformer 块的输入与输出之间的残差在时间步之间表现出高度的时间一致性。利用这种时间冗余,我们引入时间增量缓存(Temporal Delta Cache, TDC)来跳过这些不变块的计算,进一步降低计算成本。大量实验表明,我们的方法实现了 1.92 倍的端到端加速和 3.32 倍的内存压缩,为视频 DiT 的高效推理树立了新的基线。
The Pulse of Motion: Measuring Physical Frame Rate from Visual Dynamics
揭示视频生成模型的「时间测量幻觉」问题,提出视觉计时器预测物理帧率
- 作者: Xiangbo Gao, Mingyang Wu, Siyuan Yang, Jiongze Yu, Pardis Taghavi et al.
- 来源: HuggingFace Trending (16 upvotes)
- 链接: arXiv | PDF
- 关键贡献: 定义了「时间测量幻觉」(chronometric hallucination)问题——AI 生成视频的物理运动速度模糊、不稳定且不可控。提出 Visual Chronometer 直接从视觉动态恢复物理帧率(PhyFPS),建立了两个基准测试,并证明 PhyFPS 校正能显著改善 AI 生成视频的人类感知自然度。
- 相关技术: physical frame rate, chronometric hallucination, Visual Chronometer, temporal resampling, video generation evaluation
- 代码/权重: 未提及
📄 Abstract 中文翻译
虽然最近的生成式视频模型已经实现了卓越的视觉真实感,并正被作为世界模型进行探索,但真正的物理模拟需要同时掌握空间和时间。当前模型可以产生视觉上平滑的运动学效果,但缺乏可靠的内部运动脉冲来将这些运动锚定在一致的真实世界时间尺度上。这种时间模糊源于一种常见做法:不加区分地在具有截然不同真实世界速度的视频上进行训练,然后将它们强制统一到标准化帧率。这导致了我们所称的时间测量幻觉(chronometric hallucination):生成序列展现出模糊、不稳定且不可控的物理运动速度。为解决这一问题,我们提出了 Visual Chronometer,一种直接从输入视频的视觉动态中恢复物理每秒帧数(Physical Frames Per Second, PhyFPS)的预测器。通过受控时间重采样进行训练,我们的方法估计运动本身所暗示的真实时间尺度,绕过不可靠的元数据。为系统量化这一问题,我们建立了两个基准:PhyFPS-Bench-Real 和 PhyFPS-Bench-Gen。我们的评估揭示了一个严峻现实:最先进的视频生成器存在严重的 PhyFPS 失配和时间不稳定性。最后,我们证明应用 PhyFPS 校正能够显著改善 AI 生成视频的人类感知自然度。
4DGS360: 360° Gaussian Reconstruction of Dynamic Objects from a Single Video
单目视频 360° 动态物体重建框架,在遮挡区域几何一致性上取得突破
- 作者: Jae Won Jang, Yeonjin Chang, Wonsik Shin, Juhwan Cho, Nojun Kwak
- 来源: HuggingFace Trending (11 upvotes)
- 链接: arXiv | PDF
- 关键贡献: 提出无扩散的 4D 高斯重建框架,通过 3D 原生初始化和 AnchorTAP3D 追踪器解决遮挡区域的几何歧义。新建 iPhone360 基准允许测试相机与训练视角相差 135°,在该基准和 DAVIS 数据集上达到 SOTA。
- 相关技术: 4D Gaussian splatting, AnchorTAP3D, 3D-native initialization, dynamic object reconstruction, monocular video
- 代码/权重: 未提及
📄 Abstract 中文翻译
我们介绍 4DGS360,一个从日常单目视频进行 360° 动态物体重建的无扩散框架。现有方法常因严重依赖 2D 原生先验而导致初始点过拟合到每个训练视角的可见表面,从而无法重建一致的 360° 几何。4DGS360 通过先进的 3D 原生初始化来解决这一挑战,缓解遮挡区域的几何歧义。我们提出的 3D 追踪器 AnchorTAP3D 利用可信的 2D 追踪点作为锚点生成增强的 3D 点轨迹,抑制漂移并提供保持遮挡区域几何的可靠初始化。这种初始化结合优化,产生连贯的 360° 4D 重建。我们进一步提出 iPhone360 新基准,其中测试相机与训练视角相隔最多 135°,实现现有数据集无法提供的 360° 评估。实验表明 4DGS360 在 iPhone360、iPhone 和 DAVIS 数据集上均在定性和定量方面达到最先进性能。
Pixel-level Scene Understanding in One Token: Visual States Need What-is-Where Composition
提出 CroBo 框架学习像素级场景组合表示,用单个瓶颈 token 捕获场景全局语义
- 作者: Seokmin Lee, Yunghee Lee, Byeonghyun Pak, Byeongju Woo
- 来源: HuggingFace Trending (2 upvotes)
- 链接: arXiv | PDF
- 关键贡献: 提出视觉状态表示需要编码"什么在哪里"的组合信息。CroBo 框架通过全局到局部重建目标,将参考观察压缩到紧凑瓶颈 token 中,学习细粒度的场景级语义实体表示。在多个视觉机器人策略学习基准上达到 SOTA。
- 相关技术: bottleneck token representation, global-to-local reconstruction, self-supervised learning, visual state representation, robot policy learning
- 代码/权重: 未提及
📄 Abstract 中文翻译
对于在动态环境中运行的机器人 Agent,从流式视频观察中学习视觉状态表示对于序列决策至关重要。最近的自监督学习方法在视觉任务中展现了强迁移性,但它们没有明确解决良好的视觉状态应该编码什么。我们认为有效的视觉状态必须通过联合编码场景元素的语义身份及其空间位置来捕获"什么在哪里"(what-is-where),从而实现跨观察的细微动态检测。为此,我们提出 CroBo,一个基于全局到局部重建目标的视觉状态表示学习框架。给定一个压缩到紧凑瓶颈 token 中的参考观察,CroBo 学习使用全局瓶颈 token 作为上下文,从稀疏可见线索重建局部目标裁剪中被大量遮蔽的 patch。这一学习目标鼓励瓶颈 token 编码场景级语义实体的细粒度表示,包括它们的身份、空间位置和配置。因此,学到的视觉状态揭示了场景元素如何随时间移动和交互,支持序列决策。我们在多种基于视觉的机器人策略学习基准上评估了 CroBo,取得了最先进的性能。重建分析和感知直线性实验进一步表明,学到的表示保持了像素级场景组合并编码了跨观察的"什么在移动到哪里"。
🤖 AI Agents
Qworld: Question-Specific Evaluation Criteria for LLMs
为每个问题生成专属评估标准的递归扩展树方法,揭示 LLM 被粗粒度评估遮蔽的能力差异
- 作者: Shanghua Gao, Yuchang Su, Pengwei Sui, Curtis Ginder, Marinka Zitnik
- 来源: HuggingFace Trending (9 upvotes)
- 链接: arXiv | PDF
- 关键贡献: 提出"一题一世界"(One-Question-One-World)方法,通过递归扩展树为每个问题生成特定评估标准。在 HealthBench 上覆盖 89% 的专家标注标准并生成 79% 被专家验证的新标准。在 11 个前沿 LLM 上揭示了长期影响、公平性和错误处理等粗粒度评估无法区分的能力差异。
- 相关技术: recursive expansion tree, question-specific evaluation, HealthBench, Humanity’s Last Exam, fine-grained LLM evaluation
- 代码/权重: 未提及
📄 Abstract 中文翻译
评估大语言模型(LLM)在开放式问题上的表现十分困难,因为回复质量取决于问题的上下文。二分评分和静态评分标准无法捕获这些依赖上下文的要求。现有方法在数据集级别定义标准或一次性生成标准,限制了它们探索每个问题所隐含的评估空间的能力。我们引入"一题一世界"(One-Question-One-World, Qworld),一种使用递归扩展树生成特定于问题的评估标准的方法。给定一个问题,Qworld 通过结构化的层级和水平扩展将其分解为场景、视角和细粒度二元标准。生成的标准明确指定了该问题的高质量答案必须涵盖的内容。在 HealthBench 上,Qworld 覆盖了 89% 的专家撰写标准,并生成了 79% 经人类专家验证的新标准。专家将 Qworld 标准在洞察力和粒度上的评级高于先前方法。当应用于 HealthBench 和 Humanity’s Last Exam 上的 11 个前沿 LLM 时,Qworld 揭示了在长期影响、公平性、错误处理和跨学科推理等维度上的能力差异,这些是粗粒度评估无法区分的。通过将标准生成构建为对问题隐含评估轴的结构化覆盖,Qworld 实现了适应每个问题的评估,而非依赖固定的任务级标准。
MemMA: Coordinating the Memory Cycle through Multi-Agent Reasoning and In-Situ Self-Evolution
即插即用的多 Agent 框架,协调记忆周期的构建、检索和利用,并支持原位自我进化
- 作者: Minhua Lin, Zhiwei Zhang, Hanqing Lu, Hui Liu, Xianfeng Tang et al.
- 来源: HuggingFace Trending (7 upvotes)
- 链接: arXiv | PDF
- 关键贡献: 提出 MemMA 框架解决记忆增强 Agent 中构建、检索和利用割裂的问题。前向路径由 Meta-Thinker 生成结构化指导,引导 Memory Manager 和 Query Reasoner;后向路径通过生成探测 QA 对进行记忆验证和修复。在 LoCoMo 基准上跨多个 LLM 骨干和三种存储后端持续超越基线。
- 相关技术: memory-augmented agents, multi-agent memory coordination, in-situ self-evolution, probe QA verification, plug-and-play framework
- 代码/权重: 已开源 ✅
📄 Abstract 中文翻译
记忆增强的 LLM Agent 维护外部记忆库以支持长时程交互,然而大多数现有系统将构建、检索和利用视为独立的子程序。这产生了两个耦合的挑战:在记忆周期的前向路径上存在战略盲区,其中构建和检索由局部启发式而非显式战略推理驱动;在后向路径上存在稀疏且延迟的监督,其中下游失败很少转化为对记忆库的直接修复。为解决这些挑战,我们提出 MemMA,一个即插即用的多 Agent 框架,沿前向和后向两条路径协调记忆周期。在前向路径上,Meta-Thinker 生成结构化指导,在构建期间引导 Memory Manager,在迭代检索期间指导 Query Reasoner。在后向路径上,MemMA 引入原位自我进化的记忆构建(in-situ self-evolving memory construction),合成探测 QA 对,验证当前记忆,并在记忆定稿之前将失败转化为修复动作。在 LoCoMo 上的大量实验表明,MemMA 在多个 LLM 骨干上持续超越现有基线,并以即插即用的方式改善了三种不同的存储后端。我们的代码公开在 https://github.com/ventr1c/memma。
StreamingClaw Technical Report
统一的流式视频理解与具身智能 Agent 框架,兼容 OpenClaw 生态
- 作者: Jiawei Chen, Zhe Chen, Chaoqun Du et al.
- 来源: HuggingFace Trending (7 upvotes)
- 链接: arXiv | PDF
- 关键贡献: 提出 StreamingClaw 统一框架,整合实时流式推理、多模态长期记忆、主动交互和感知-决策-行动闭环。兼容 OpenClaw 框架,支持流式工具和面向物理环境的行动技能,实现了从感知到实际控制物理世界的完整链路。
- 相关技术: streaming video understanding, embodied intelligence, multimodal long-term memory, perception-decision-action loop, OpenClaw compatibility
- 代码/权重: 未提及
📄 Abstract 中文翻译
具身智能等应用依赖实时的感知-决策-行动闭环,对流式视频理解提出了严格挑战。然而,当前的 Agent 存在能力碎片化问题,如仅支持离线视频理解、缺乏长期多模态记忆机制,或难以在流式输入下实现实时推理和主动交互。这些不足已成为阻止它们在真实世界环境中持续感知、实时决策和执行行动的关键瓶颈。为缓解这些问题,我们提出 StreamingClaw,一个面向流式视频理解和具身智能的统一 Agent 框架。它也是一个兼容 OpenClaw 的框架,支持实时多模态流式交互。StreamingClaw 整合了五大核心能力:(1)支持实时流式推理;(2)支持对未来事件的推理和在交互目标在线演化下的主动交互;(3)支持多模态长期存储、层级进化和多 Agent 共享记忆的高效检索;(4)支持感知-决策-行动闭环,除常规工具和技能外还提供面向真实物理环境的流式工具和以行动为中心的技能;(5)兼容 OpenClaw 框架,能够充分利用开源社区的资源和支持。通过这些设计,StreamingClaw 在统一框架内整合了在线实时推理、多模态长期记忆和主动交互。此外,通过将决策转化为可执行行动,它实现了对物理世界的直接控制,支持具身交互的实际部署。
📌 其他值得关注
Extending Precipitation Nowcasting Horizons via Spectral Fusion of Radar Observations and Foundation Model Priors
利用盘古气象预报作为频域先验扩展降水临近预报时效
- 作者: Yuze Qin, Qingyong Li, Zhiqing Guo, Wen Wang, Yan Liu et al.
- 来源: HuggingFace Trending (1 upvote)
- 链接: arXiv | PDF
- 关键贡献: 提出 PW-FouCast 频域融合框架,将盘古气象(Pangu-Weather)预报作为频谱先验注入基于傅里叶的骨干网络。引入三项创新:频率调制、频率记忆和反转频率注意力。在 SEVIR 和 MeteoNet 基准上达到 SOTA。
- 相关技术: Pangu-Weather, Fourier-based precipitation nowcasting, frequency modulation, spectral fusion, radar-meteorological data fusion
- 代码/权重: 已开源 ✅
📄 Abstract 中文翻译
降水临近预报对于灾害减缓和航空安全至关重要。然而,仅依赖雷达的模型经常因缺乏大尺度大气上下文而在较长预报时效时性能下降。虽然整合由天气基础模型预测的气象变量提供了一种潜在的补救方案,但现有架构无法调和雷达图像和气象数据之间深层的表征异质性。为弥合这一差距,我们提出了 PW-FouCast,一个新颖的频域融合框架,利用盘古气象(Pangu-Weather)预报作为基于傅里叶骨干网络中的频谱先验。我们的架构引入了三项关键创新:(i)盘古气象引导的频率调制(Pangu-Weather-guided Frequency Modulation),用于将频谱幅度和相位与气象先验对齐;(ii)频率记忆(Frequency Memory),用于校正相位差异并保持时间演化;以及(iii)反转频率注意力(Inverted Frequency Attention),用于重建在频谱滤波中通常丢失的高频细节。在 SEVIR 和 MeteoNet 基准上的大量实验表明,PW-FouCast 达到了最先进的性能,有效扩展了可靠预报时效同时保持了结构保真度。我们的代码可在 https://github.com/Onemissed/PW-FouCast 获取。
Generated on 2026-03-30 00:00 UTC | Sources: HuggingFace Daily Papers, arXiv