AI News Daily | 2026-04-30

Daily Report News

AI News Daily | 2026-04-30

🔥 今日头条

Mistral Medium 3.5 (128B) 正式发布

Mistral 发布了 Medium 3.5 模型，参数量 128B，已上架 Hugging Face。社区反响热烈，多个帖子同时在 r/LocalLLaMA 刷屏。这标志着 Mistral 在中等规模模型线上的又一次升级，与之前的 Mistral Medium 3.0 形成代际更替。

ChatGPT 开始投放广告：完整的归因链路曝光

一篇深度分析揭示了 ChatGPT 如何投放广告以及完整的归因链路。随着 OpenAI 从纯订阅模式向广告模式扩展，这对整个 AI 行业的商业模式有重大影响。

How ChatGPT Serves Ads

微软称 Copilot 付费用户超过 2000 万，且"真的在用"

微软宣布 Copilot 付费用户突破 2000 万，并强调这些用户确实在活跃使用，而非只是捆绑的沉睡账户。这是企业 AI 采用的一个重要里程碑。

Microsoft says it has over 20M paid Copilot users (TechCrunch)

🛠 模型与推理

IK_LLAMA 支持 Qwen3.5 MTP（Multi-Token Prediction）

IK_LLAMA 推理引擎新增了对 Qwen3.5 MTP 的支持，这是 llama.cpp 生态中一个重要的性能特性，可以显著提升推理速度。

IK_LLAMA now supports Qwen3.5 MTP Support (r/LocalLLaMA)

Qwen3.6 27B 在双 RTX 5060 Ti 16GB 上跑出 ~60 tok/s

有人用双 RTX 5060 Ti 16GB 搭配 vLLM 跑 Qwen3.6 27B，实现了 60 tok/s 和 204k 上下文窗口。消费级显卡跑 27B 模型达到这个速度，性价比相当惊人。

Qwen3.6 27B on dual RTX 5060 Ti with vLLM (r/LocalLLaMA)

llama.cpp NVFP4 原生 vs 非原生对比（Blackwell 架构）

Blackwell GPU 上 llama.cpp 的 NVFP4 量化原生与非原生实现的基准测试对比结果出炉。

llama.cpp benchmark native vs. non-native NVFP4 on Blackwell (r/LocalLLaMA)

KLD 量化对比：oQ vs Q vs MXFP vs UD MLX

对多种量化方案（oQ、Q、MXFP、UD MLX）的 KL 散度比较，帮助选择最佳量化策略。

KLD comparison of quantizations (r/LocalLLaMA)

从零写一个 LLM 编译器：PyTorch 到 CUDA，5000 行 Python

一篇关于从零开始实现 LLM 推理编译器的教程，将 PyTorch 模型编译为 CUDA 代码，仅用 5000 行 Python。

Writing an LLM compiler from scratch (r/LocalLLaMA)

🤖 AI Agent 与工具

Claude Code 恶意软件提醒回归 Bug 导致子代理持续拒绝

Claude Code 的一个回归 bug（issue #49363）：恶意软件提醒在每次读取时仍然触发，导致子代理任务被频繁拒绝。这对依赖 Claude Code 做自动化工作流的开发者影响很大。

Regression: malware reminder on every read still causes subagent refusals (GitHub)

如何写好 AGENTS.md：好的是模型升级，差的比没有文档还糟

Augment Code 发布了一篇关于 AGENTS.md 最佳实践的博客，探讨了如何编写能让 AI 代理更好理解项目上下文的指引文件。这在 AI 辅助编码工具普及的当下非常实用。

A good AGENTS.md is a model upgrade (Augment Code)

Warm-Cache 方案为 Claude Agent 节省 87% 成本，延迟低于 3 秒

有人构建了一个"暖缓存"编排方案，让持久化 Claude Agent 实现了 87% 的成本节省和低于 3 秒的延迟。

87% Cost Savings & Sub-3s Latency with Warm-Cache harness (r/artificial)

CUA：在后台驱动任何 macOS 应用而不抢占光标

trycua/cua 项目让你能在后台操控 macOS 应用，无需抢占鼠标光标，对 AI agent 自动化场景很有用。

Drive any macOS app in the background (GitHub)

本地 PDF 转有声书完整工作流：Kokoro 82M + Qwen + llama.cpp

一个完全本地化的 PDF 转有声书方案，用 Kokoro 82M 做 TTS、Qwen 做文本理解、llama.cpp 做推理，无需联网。

Building a fully local PDF-to-audiobook workflow (r/LocalLLaMA)

📊 基准与评估

新的 LLM 结构化输出基准测试

Interfaze 发布了一个专门测试 LLM 确定性输出能力的基准。在 agent 工作流中，可靠的 JSON/结构化输出至关重要，这个基准填补了评估空白。

Introducing Structured Output Benchmark (Interfaze)

Claude Code Caveman 插件 vs “Be Brief” 基准测试

有人把 Claude Code 的 caveman 插件和简单的"be brief"提示做了基准对比，结果挺有趣的。

I benchmarked Claude Code’s caveman plugin against “be brief”

🔒 安全与治理

Prompt 注入代理：击败 OpenAI Moderation 和 LlamaGuard

社区项目构建了一个 prompt 注入检测代理，声称能击败 OpenAI Moderation 和 LlamaGuard 的防御，并提供了在线 demo。

Built a prompt injection proxy that beats OpenAI Moderation and LlamaGuard (r/artificial)

AI 安全工具 AISLE 在 OpenEMR 医疗软件中发现 38 个 CVE

AISLE（AI 驱动的安全审计工具）在 OpenEMR 医疗软件中发现了 38 个关键安全漏洞，影响超过 10 万家医疗机构。

AISLE Discovers 38 CVEs in OpenEMR (HN)

让 AI 聊天机器人更友好反而导致更多错误和阴谋论支持

卫报报道的一项研究表明，让 AI 聊天机器人更友好会导致更多的事实错误和阴谋论支持，揭示了安全性对齐中的一个悖论。

Making AI chatbots friendly leads to mistakes and conspiracy theories (The Guardian)

💡 观点与讨论

AI 公司为什么想让你害怕它们

BBC 的一篇深度分析，探讨 AI 公司如何通过制造恐惧来推动监管捕获和市场壁垒。

Why AI companies want you to be afraid of them (BBC)

AI 数了 27000 次碳水，每次答案都不一样

一个糖尿病管理场景下的 AI 一致性测试：让 AI 计算食物碳水量 27000 次，结果每次答案都不同。对 AI 在医疗场景的可靠性提出了严重质疑。

AI asked to count carbs 27000 times (Diabettech)

LLM 推理为什么不在向量空间做，而用自然语言？

r/MachineLearning 上的热门讨论：为什么 LLM 的思维链推理使用自然语言 token 而不是在连续向量空间中进行？

Why isn’t LLM reasoning done in vector space? (r/MachineLearning)

“不用 AI 的人会被淘汰”——真的吗？

一篇博客对"不用 AI 就会被淘汰"这一流行论调的反思。

People who don’t use AI will be left behind (HN)

AI 工具减少摩擦的代价是深度思考？

关于 AI 工具是否在降低使用门槛的同时牺牲了深度思考能力的讨论。

Do AI tools reduce friction at the cost of deeper thinking? (r/artificial)

📺 产品与生态

Google TV 将集成更多 Gemini 功能

TechCrunch 报道，Google TV 正在引入更多 Gemini AI 功能，包括更自然的对话交互和内容推荐。

More Gemini features are coming to Google TV (TechCrunch)

Skill Files 让 Claude 和 Gemini 每次对话都是"暖启动"

社区项目为 Claude 和 Gemini 构建了一套 skill files，让每次新对话都能保持上下文连续性，不再从零开始。

Built a set of skill files for Claude and Gemini (r/artificial)

MLC-SLM Challenge 2026：多语言语音 LLM 竞赛，奖金 2 万美元

第二届 MLC-SLM 挑战赛开启，聚焦多语言语音大模型，免费报名，奖金池 2 万美元。

2nd MLC-SLM Challenge 2026 (r/MachineLearning)

🧪 实验/趣味

PS5 可以被破解运行 Linux——能跑本地推理吗？

PS5 破解运行 Linux 的消息引发了本地 LLM 推理爱好者的遐想。

PS5’s can now be hacked to run Linux (r/LocalLLaMA)

让 AI 玩我的游戏：构建 Agent 测试框架

开发者构建了一个 AI agent 测试框架来自动化游戏试玩测试。

Letting AI play my game (HN)

📅 生成时间：2026-04-30 00:15 UTC
📡 数据源：Hacker News · GitHub Trending · Reddit (r/MachineLearning · r/artificial · r/LocalLLaMA) · TechCrunch AI
📝 注：GitHub Trending 因 SSL 错误未获取到数据，其余源正常

Photo by GuerrillaBuzz on Unsplash