🔥 今日头条
Mistral Medium 3.5 (128B) 正式发布
Mistral 发布了 Medium 3.5 模型,参数量 128B,已上架 Hugging Face。社区反响热烈,多个帖子同时在 r/LocalLLaMA 刷屏。这标志着 Mistral 在中等规模模型线上的又一次升级,与之前的 Mistral Medium 3.0 形成代际更替。
- Mistral Medium 3.5 Launched (r/LocalLLaMA)
- Mistral Medium 3.5 is here (r/LocalLLaMA)
- mistralai/Mistral-Medium-3.5-128B on Hugging Face
ChatGPT 开始投放广告:完整的归因链路曝光
一篇深度分析揭示了 ChatGPT 如何投放广告以及完整的归因链路。随着 OpenAI 从纯订阅模式向广告模式扩展,这对整个 AI 行业的商业模式有重大影响。
微软称 Copilot 付费用户超过 2000 万,且"真的在用"
微软宣布 Copilot 付费用户突破 2000 万,并强调这些用户确实在活跃使用,而非只是捆绑的沉睡账户。这是企业 AI 采用的一个重要里程碑。
🛠 模型与推理
IK_LLAMA 支持 Qwen3.5 MTP(Multi-Token Prediction)
IK_LLAMA 推理引擎新增了对 Qwen3.5 MTP 的支持,这是 llama.cpp 生态中一个重要的性能特性,可以显著提升推理速度。
Qwen3.6 27B 在双 RTX 5060 Ti 16GB 上跑出 ~60 tok/s
有人用双 RTX 5060 Ti 16GB 搭配 vLLM 跑 Qwen3.6 27B,实现了 60 tok/s 和 204k 上下文窗口。消费级显卡跑 27B 模型达到这个速度,性价比相当惊人。
llama.cpp NVFP4 原生 vs 非原生对比(Blackwell 架构)
Blackwell GPU 上 llama.cpp 的 NVFP4 量化原生与非原生实现的基准测试对比结果出炉。
KLD 量化对比:oQ vs Q vs MXFP vs UD MLX
对多种量化方案(oQ、Q、MXFP、UD MLX)的 KL 散度比较,帮助选择最佳量化策略。
从零写一个 LLM 编译器:PyTorch 到 CUDA,5000 行 Python
一篇关于从零开始实现 LLM 推理编译器的教程,将 PyTorch 模型编译为 CUDA 代码,仅用 5000 行 Python。
🤖 AI Agent 与工具
Claude Code 恶意软件提醒回归 Bug 导致子代理持续拒绝
Claude Code 的一个回归 bug(issue #49363):恶意软件提醒在每次读取时仍然触发,导致子代理任务被频繁拒绝。这对依赖 Claude Code 做自动化工作流的开发者影响很大。
如何写好 AGENTS.md:好的是模型升级,差的比没有文档还糟
Augment Code 发布了一篇关于 AGENTS.md 最佳实践的博客,探讨了如何编写能让 AI 代理更好理解项目上下文的指引文件。这在 AI 辅助编码工具普及的当下非常实用。
Warm-Cache 方案为 Claude Agent 节省 87% 成本,延迟低于 3 秒
有人构建了一个"暖缓存"编排方案,让持久化 Claude Agent 实现了 87% 的成本节省和低于 3 秒的延迟。
CUA:在后台驱动任何 macOS 应用而不抢占光标
trycua/cua 项目让你能在后台操控 macOS 应用,无需抢占鼠标光标,对 AI agent 自动化场景很有用。
本地 PDF 转有声书完整工作流:Kokoro 82M + Qwen + llama.cpp
一个完全本地化的 PDF 转有声书方案,用 Kokoro 82M 做 TTS、Qwen 做文本理解、llama.cpp 做推理,无需联网。
📊 基准与评估
新的 LLM 结构化输出基准测试
Interfaze 发布了一个专门测试 LLM 确定性输出能力的基准。在 agent 工作流中,可靠的 JSON/结构化输出至关重要,这个基准填补了评估空白。
Claude Code Caveman 插件 vs “Be Brief” 基准测试
有人把 Claude Code 的 caveman 插件和简单的"be brief"提示做了基准对比,结果挺有趣的。
🔒 安全与治理
Prompt 注入代理:击败 OpenAI Moderation 和 LlamaGuard
社区项目构建了一个 prompt 注入检测代理,声称能击败 OpenAI Moderation 和 LlamaGuard 的防御,并提供了在线 demo。
AI 安全工具 AISLE 在 OpenEMR 医疗软件中发现 38 个 CVE
AISLE(AI 驱动的安全审计工具)在 OpenEMR 医疗软件中发现了 38 个关键安全漏洞,影响超过 10 万家医疗机构。
让 AI 聊天机器人更友好反而导致更多错误和阴谋论支持
卫报报道的一项研究表明,让 AI 聊天机器人更友好会导致更多的事实错误和阴谋论支持,揭示了安全性对齐中的一个悖论。
💡 观点与讨论
AI 公司为什么想让你害怕它们
BBC 的一篇深度分析,探讨 AI 公司如何通过制造恐惧来推动监管捕获和市场壁垒。
AI 数了 27000 次碳水,每次答案都不一样
一个糖尿病管理场景下的 AI 一致性测试:让 AI 计算食物碳水量 27000 次,结果每次答案都不同。对 AI 在医疗场景的可靠性提出了严重质疑。
LLM 推理为什么不在向量空间做,而用自然语言?
r/MachineLearning 上的热门讨论:为什么 LLM 的思维链推理使用自然语言 token 而不是在连续向量空间中进行?
“不用 AI 的人会被淘汰”——真的吗?
一篇博客对"不用 AI 就会被淘汰"这一流行论调的反思。
AI 工具减少摩擦的代价是深度思考?
关于 AI 工具是否在降低使用门槛的同时牺牲了深度思考能力的讨论。
📺 产品与生态
Google TV 将集成更多 Gemini 功能
TechCrunch 报道,Google TV 正在引入更多 Gemini AI 功能,包括更自然的对话交互和内容推荐。
Skill Files 让 Claude 和 Gemini 每次对话都是"暖启动"
社区项目为 Claude 和 Gemini 构建了一套 skill files,让每次新对话都能保持上下文连续性,不再从零开始。
MLC-SLM Challenge 2026:多语言语音 LLM 竞赛,奖金 2 万美元
第二届 MLC-SLM 挑战赛开启,聚焦多语言语音大模型,免费报名,奖金池 2 万美元。
🧪 实验/趣味
PS5 可以被破解运行 Linux——能跑本地推理吗?
PS5 破解运行 Linux 的消息引发了本地 LLM 推理爱好者的遐想。
让 AI 玩我的游戏:构建 Agent 测试框架
开发者构建了一个 AI agent 测试框架来自动化游戏试玩测试。
📅 生成时间:2026-04-30 00:15 UTC
📡 数据源:Hacker News · GitHub Trending · Reddit (r/MachineLearning · r/artificial · r/LocalLLaMA) · TechCrunch AI
📝 注:GitHub Trending 因 SSL 错误未获取到数据,其余源正常
Photo by GuerrillaBuzz on Unsplash