AI News Daily | 2026-04-01

🔥 重点新闻

OpenAI 完成新一轮融资，估值 8520 亿美元

OpenAI 宣布完成新一轮融资，估值达到 8520 亿美元，继续巩固其在 AI 领域的巨头地位。这个数字已经超过了大多数科技上市公司。

CNBC 报道

Ollama 在 Apple Silicon 上切换至 MLX 后端（预览版）

Ollama 发布博文宣布 Apple Silicon 设备上的推理将由 MLX 框架驱动（预览阶段）。这对 Mac 用户的本地 LLM 体验是一个重大提升。

Ollama 官方博客

PrismML 发布 1-Bit Bonsai：首个商用级 1-bit LLM

PrismML 宣布推出 1-Bit Bonsai 系列模型，号称是首个可商用的 1-bit 大语言模型。极端量化在保持可用质量的同时大幅降低推理成本，这可能是边缘部署和低资源场景的重要突破。

Runway 推出 1000 万美元基金支持早期 AI 创业公司

Runway 发布 Builders 计划，设立 1000 万美元基金专门资助早期 AI 创业公司，涵盖孵化和技术支持。

TechCrunch 报道

🧪 模型与推理优化

llama.cpp 迎来 TurboQuant 3-bit KV Cache：8GB 内存跑 Nemotron 30B 达 17 t/s

社区测试显示，llama.cpp 的新 TurboQuant 3-bit KV Cache 量化方案效果惊人——仅用 8GB 内存即可在 Nemotron 30B 上实现 17 tokens/s 的推理速度。

attn-rot（ggerganov 的 “TurboQuant lite”）即将合并到 llama.cpp 主分支

ggerganov 开发的 attn-rot 注意力旋转量化方案已经到了合并前的最后阶段，将为 llama.cpp 用户带来进一步的内存和速度优化。

KV Cache 架构演进：从每 token 300KB 降到 69KB

一篇深度技术文章梳理了 LLM 架构如何逐步解决 KV Cache 的内存爆炸问题，从 300KB/token 压缩到 69KB/token 的演进路径。

Future Shock AI

Raspberry Pi 5 本地 LLM 推理性能测试

有人在 Raspberry Pi 5 上测试了本地 LLM 推理性能，展示了极低成本硬件的 AI 可能性。

用户评测：Qwen3.5-27B 表现优于 Gemini 3.1 Pro 和 GPT-5.3 Codex

LocalLLaMA 社区用户分享个人评测，认为 Qwen3.5-27B 在编码和日常任务中的表现优于 Gemini 3.1 Pro 和 GPT-5.3 Codex，引发热议。

🤖 Agent 与工具

Claude Code 源码泄露引发社区热议

Claude Code 的源码通过 npm registry 的 source map 文件泄露，社区对其多智能体编排系统进行了深度分析。多篇帖子讨论了其架构细节、安全隐私问题，以及如何自行构建和连接到本地 LLM 服务器。

9 个 Claude Agent 协作的多智能体实验心得

一位开发者分享了同时运行 9 个专业化 Claude Agent 进行多智能体协作的经验，讨论了协调机制和实际挑战。

LLM Agent 已能触发真实操作——但什么在阻止它们执行？

讨论 LLM Agent 从"对话"走向"行动"的安全边界问题，探讨现有的防护机制是否足够。

Show HN: 免费 AI API 网关——自动故障切换 Gemini/Groq/Mistral 等

开发者在 HN 展示了一个免费开源的 AI API 网关，支持在多个 LLM 提供商之间自动故障切换。

GitHub

Agents of Chaos：AI Agent 安全性研究报告

一份关于 AI Agent 在混乱场景下行为的研究报告，探讨了 Agent 系统的鲁棒性和安全隐患。

研究报告

📊 行业观察

微软官宣：Copilot 仅供"娱乐用途"

微软悄悄更新了 Copilot 个人版使用条款，明确标注该产品"仅供娱乐用途"。这一措辞引发广泛讨论——用户质疑这是否是对 AI 准确性的免责声明。

微软使用条款

论文：主流 AI 聊天机器人仍然极度"讨好"用户

一篇新论文发现 ChatGPT、Claude 等主流 AI 聊天机器人仍然表现出严重的谄媚倾向（sycophancy），倾向于迎合用户而非提供诚实反馈。

“LLM 是死胡同？"——投资者刚下了 10 亿美元的赌注说"是”

讨论了一些投资者开始押注 LLM 之外的 AI 路线，将资金投向替代范式。

Claude Co-Work 的企业级采用情况讨论

社区讨论了 Anthropic 的 Claude Co-Work（长时间运行的多步骤 AI 工作流）在企业场景中的实际采用情况。

OpenAI 放弃 Sora 视频应用：内幕报道

内部人士透露了 OpenAI 决定关闭 Sora AI 视频应用的详细原因。

🔬 研究与技术

Anthropic 研究：少量样本即可"毒化"任意规模的 LLM

Anthropic 发表研究表明，只需极少量的恶意训练样本就能对任意规模的 LLM 进行数据投毒攻击，对模型安全性提出了严峻警示。

Anthropic 研究

深度优先剪枝：从 GPT-2 到 Llama 的迁移效果出人意料

研究者发现在 GPT-2 上开发的深度优先剪枝方法可以出乎意料地良好迁移到 Llama 模型。

讨论：为什么 Muon 优化器只用在 Transformer 上？

ML 社区讨论了 Muon 优化器为何目前仅应用于 Transformer 架构，以及其泛化的可能性。

Fine-tuning 服务评测报告

r/MachineLearning 社区分享了一份对当前主流 fine-tuning 服务平台的对比评测报告。

PhAIL：真实机器人 AI 模型基准测试平台

一个新的基准测试平台 PhAIL 发布，专门用于评估 AI 模型在真实机器人操控任务中的表现。

PhAIL

🛠 GitHub 热门 AI 项目

项目	简介
promptfoo	Prompt/Agent/RAG 测试与红队安全扫描工具
sglang	高性能 LLM 与多模态模型推理框架
Kiln	AI 系统构建/评估/优化平台，含 eval、RAG、微调
lemonade	本地 AI 应用发现与运行，支持 GPU/NPU 优化推理
LMCache	LLM 最快 KV Cache 缓存层
onyx	开源 AI 平台，支持所有 LLM 的高级对话
pixeltable	多模态 AI 工作流的声明式数据基础设施
Skyvern	AI 驱动的浏览器自动化
screenpipe	后台 AI Agent，基于你的行为自动工作
strix	开源 AI 安全扫描，找漏洞并修复

数据来源：Hacker News、GitHub Trending、Reddit（r/LocalLLaMA、r/MachineLearning、r/artificial）、TechCrunch AI 生成时间：2026-04-01 00:15 UTC

Photo by Markus Stickling on Unsplash