本日报聚焦 AI/ML/LLM 领域最新动态,涵盖模型发布、行业研究、开源工具和安全事件。
🔥 头条
OpenAI 发布 GPT-5.4-Cyber,与 Anthropic Mythos 正面交锋
4月14日,OpenAI 推出 GPT-5.4-Cyber——其旗舰模型 GPT-5.4 的网络安全专用变体,专精于发现软件安全漏洞。该模型采用有限发布策略,仅向经筛选的"受信公司"开放,这标志着 AI 巨头竞相进入网络安全 AI 赛道。一周前,Anthropic 刚发布了同样限制访问的 Mythos 模型。
两家公司不约而同地选择了"只给信得过的人用"的发布策略——这种模式正在成为前沿 AI 模型的新常态。
Stanford 2026 AI Index 报告发布:AI 进步神速,但"信任鸿沟"触目惊心
Stanford HAI 发布年度 AI Index 报告,核心发现:
- SWE-bench Verified 从 60% 飙升至近 100%,一年内接近人类水平
- Gemini Deep Think 获得 IMO 金牌,但最强模型读对模拟时钟的概率仅 50.1%
- AI Agent 在 OSWorld 上从 12% 跃升至 66.3%,接近人类表现
- 机器人在真实家庭任务中成功率仅 12%
- Anthropic 顶级模型领先第二名仅 2.7%,中美模型差距持续缩小
- 公众与 AI 专家之间存在巨大信任鸿沟——专家乐观,公众焦虑
报告用一句话概括了当前 AI 的荒诞:能拿数学奥赛金牌,却读不对一个钟。
来源: Stanford HAI | IEEE Spectrum | Nature
🧠 模型发布
Google Gemma 4:让本地 AI 变得可选
4月2日发布的 Gemma 4 是 Google 最新开源模型家族,四个尺寸(E2B / E4B / 26B MoE / 31B Dense),全部原生多模态(文本+图像+视频,小模型还支持音频)。31B Dense 版本在 Arena AI 开源模型中排名第三,数学/编码/推理基准上超越了 Meta 的 Llama 4。Apache 2.0 许可证,可以在 iPhone 上运行。
这不是"还行的小模型"——这是在说:你可能不再需要云端 API 了。
来源: DeepMind | InfoQ | StartupHub
MiniMax M2.7:本地运行的"Sonnet 平替"
本周 HuggingFace 热度最高的模型。一个对话式文本生成模型,85K 下载量,trending score 797。社区评价为"家用的 Sonnet"——在消费级硬件上运行、质量接近 Claude Sonnet。LocalLLaMA 社区将其列为本地 LLM 首选之一。
来源: MiniMax | HuggingFace
PrismML Bonsai:1-bit 模型终于能用了
4月16日,PrismML 发布 Bonsai 模型家族(8B / 4B / 1.7B),基于 1.58-bit 权重架构。这不是概念验证——在旧笔记本上可达 88.6 tokens/s。1-bit 量化终于跨过了"能用"的门槛。
来源: PRNewswire | GitHub | DataCamp
GLM-5.1:Z.ai 开源模型在 SWE-Bench Pro 上超越 GPT-5.4
中国 Z.ai(智谱)的 GLM-5.1 在 SWE-Bench Pro 上击败了 GPT-5.4 和 Opus 4.6。Google Trends 上 “glm 5.1” 搜索量上涨 160%。开源模型正在系统性缩小与闭源模型的差距。
Kimi K2.6:月之暗面的 Agent 升级
Moonshot AI 发布 Kimi K2.6,重点改进推理深度和 Agent 规划能力。Cursor 被发现其 Composer 2 底层使用了 Kimi K2.5 模型,引发社区讨论。MiniMax 和 Z.ai 已在港交所上市,为前沿 AI 实验室提供了罕见的财务透明度。
来源: Fortune
🤖 机器人与具身智能
Google Gemini Robotics ER 1.6:让机器人读懂世界
DeepMind 发布 Gemini Robotics-ER 1.6,升级了空间推理和多视角理解能力,使自主机器人能够执行"读取仪表盘"等精细操作。这与腾讯 HY-Embodied-0.5 的发布形成了有趣的呼应——大厂和互联网巨头同时押注具身智能。
来源: DeepMind Blog | Google Blog
腾讯 HY-Embodied-0.5:面向真实世界的具身基础模型
腾讯 Robotics X 和 HY Vision 团队发布 HY-Embodied-0.5,一个面向真实世界 Agent 的视觉-语言具身模型。在 GitHub 上 trending score 678。中国大厂在具身智能上的投入正在加速。
来源: GitHub
🔬 研究前沿
Nature:AI 模型会"潜意识"传递偏见
Nature 发表研究表明,用 AI 训练其他 AI 模型时,教师模型的不良特征会以"潜意识"方式传递给学生模型——即使这些特征已从训练数据中被清洗。这对整个 AI 蒸馏范式提出了严峻的安全隐患。
来源: Nature | The Register
🛠️ 开源工具
hermes-agent:一周斩获 53K Stars 的 Agent 框架
NousResearch 的 hermes-agent 本周成为 GitHub Trending #1,周增 53,110 stars。核心卖点:“随你成长的 Agent”——技能随使用自动累积。纯 Python,无商业层、无托管版、无企业版。
Claude Code Routines:Anthropic 官方的 Agent 自动化
Claude Code Routines 同时登上 HN(700 points)和 Product Hunt(#1,448 votes),提供标准化的 Agent 工作流基础设施。Google Trends 显示 “claude managed agents” 搜索量暴涨 950%。
OpenAI Agents SDK 重大更新
OpenAI 扩展了 Agents SDK,新增模型原生 Harness(让 Agent 跨文件和工具工作)和原生沙箱执行。Agent 基础设施正在成为新的平台战场。
来源: OpenAI Blog | TechCrunch
其他值得关注的工具
| 项目 | 描述 | 周增 Stars |
|---|---|---|
| andrej-karpathy-skills | Karpathy 风格的 Claude Code 配置文件 | 30,919 |
| markitdown | 微软的文件→Markdown 转换工具 | 15,790 |
| multica | 开源 Managed Agents 平台 | 10,864 |
| claude-mem | Claude Code 会话记忆捕获 | 10,779 |
| awesome-agent-skills | 1000+ Agent Skills 合集 | — |
🔒 安全事件
OpenAI Axios 供应链攻击:Lazarus 组织的精心布局
3月31日,朝鲜 Lazarus Group(BlueNoroff 子组)社工了 Axios npm 包的维护者,劫持其账户发布了恶意版本。OpenAI 的内部工具下载了受感染的 Axios 更新,但 OpenAI 表示未发现用户数据被访问、系统被入侵或软件被篡改。作为预防措施,OpenAI 吊销了 macOS 桌面应用的证书。
这是 AI 公司首次公开披露的供应链攻击事件,值得所有依赖开源生态的团队警醒。
来源: OpenAI | The Hacker News | Reuters
Gas Town 被指控盗用用户 LLM Credits
AI 工具 Gas Town 被曝光在用户不知情的情况下使用其 LLM API 额度来改进自身产品(HN 218 points, 109 comments)。
来源: GitHub Issue
📱 产品动态
Google Gemini 登陆 macOS
Google 发布原生 macOS Gemini 应用,形态类似 Spotlight——可在桌面直接调起 AI 对话和操作。Anthropic、OpenAI、Perplexity 都在争夺桌面端 AI 入口。
来源: The Verge
OpenAI Codex 新增 Memory 和 Sandbox
OpenAI Codex 新增记忆功能(记住个人偏好和历史修正)和模型原生沙箱执行。侧边栏也增加了 PDF、电子表格和文档的富预览。
来源: iClarified
📊 行业趋势
Agent 基础设施成为新平台战争
本周 GitHub Trending 前 10 中有 7 个是 AI Agent 工具。“claude managed agents” 搜索量暴涨 950%,hermes-agent 一周 53K stars。开发者工具市场正以前所未有的速度被 Agent 原生架构重塑。
开源 vs AI 时代的拉锯
Cal.com 因"AI 公司白嫖开源代码"而转向闭源,引发 HN 上最激烈的讨论之一(313 points, 167 comments)。“AI-resistant licensing”(如 BSL)正在成为 2026 年开源项目的新考量。
中美模型差距持续缩小
Stanford AI Index 显示,DeepSeek-R1 曾短暂追平美国顶级模型,截至 2026 年 3 月,Anthropic 顶级模型仅领先 2.7%。中国继续在论文数量、引用量、专利产出和工业机器人部署上领先。
数据来源:Hacker News、GitHub Trending、Product Hunt、HuggingFace、Reddit r/LocalLLaMA / r/MachineLearning / r/artificial、Google Trends、BuilderPulse 生成时间:2026-04-17 00:24 UTC
Photo by Omar:. Lopez-Rincon on Unsplash