AI News Daily | 2026-04-26

🔥 头条

GPT‑5.5 Bio Bug Bounty 发布

OpenAI 为 GPT‑5.5 推出生物安全漏洞赏金计划，邀请安全研究者测试模型在生物风险场景下的边界。这标志着 OpenAI 对前沿模型安全评估的进一步开放——直接让外部红队参与，而不是只靠内部测试。

🔗 https://openai.com/index/gpt-5-5-bio-bug-bounty/

GPT-5.5 在 LiveBench 上"翻车"

号称"最强 agentic 编码模型"的 GPT-5.5，在 LiveBench 基准测试中表现不佳。社区讨论指出，agentic coding 的评估和实际落地之间还有不小的鸿沟——模型自称擅长的事和实际表现之间差距明显。

🔗 https://old.reddit.com/r/artificial/comments/1sv4l94/gpt55_strongest_agentic_coding_model_ever_failing/

AI 行业正在发现公众讨厌它

New Republic 的深度文章引发 HN 热议（189 分）。AI 公司在过去两年狂奔扩张，但公众的反感情绪持续升温——从版权争议到就业焦虑到隐私侵犯，行业正面临信任危机。

🔗 https://newrepublic.com/article/209163/ai-industry-discovering-public-backlash

🛠️ 开源项目与工具

rtk — LLM Token 消耗削减 60-90%

CLI 代理工具，在常见开发命令中减少 60-90% 的 LLM token 消耗。单 Rust 二进制文件，零依赖。对于每天大量调用 API 的开发者来说，可能省下不少钱。

🔗 https://github.com/rtk-ai/rtk

LLM Wiki — 让 AI Agent 自动维护知识库

Karpathy 式 LLM Wiki 的实现落地，两个项目值得关注：

Pratiyush/llm-wiki: 从 Claude Code、Codex CLI、Copilot、Cursor 和 Gemini 会话中自动生成 LLM 驱动的知识库
wuphf (HN 221 分): 同类思路，用 Markdown + Git 让 agent 自动维护 wiki

🔗 https://github.com/Pratiyush/llm-wiki | https://github.com/nex-crm/wuphf

Stash — 开源 AI Agent 记忆层

让任何 AI Agent 都能拥有类似 Claude.ai 和 ChatGPT 的记忆能力。开源实现，HN 158 分，社区对 agent memory 的需求显而易见。

🔗 https://alash3al.github.io/stash?_v01

vellum-assistant — 个人 AI 助手，随你进化

跨 macOS、Telegram、Slack 的个人 AI 助手，具备记忆、个性和主动触达能力。理念是"一个会跟着你成长的助手"。

🔗 https://github.com/vellum-ai/vellum-assistant

airbyte-agent-sdk — 给 AI Agent 可靠的外部系统访问

Drop-in 工具集，让 AI agent 能以权限感知的方式访问外部系统。解决 agent 连接现实系统时的可靠性和安全问题。

🔗 https://github.com/airbytehq/airbyte-agent-sdk

opencode-swarm — Agentic Swarm 编排

以架构师为中心的 agentic swarm 插件，hub-and-spoke 编排模式，支持专家咨询、代码生成和 QA 审查。

🔗 https://github.com/zaxbysauce/opencode-swarm

hud-python — RL 环境 + Agent Evals 工具包

开源强化学习环境和评估工具包，用于 AI agent 的能力评估。

🔗 https://github.com/hud-evals/hud-python

ComfyUI Frontend — 正式前端

ComfyUI 的官方前端实现。Stable Diffusion 工作流工具的 UI 层独立出来，对插件生态是好事。

🔗 https://github.com/Comfy-Org/ComfyUI_frontend

awesome-opensource-ai — 开源 AI 精选列表

高质量的开源 AI 项目、模型、工具和基础设施精选列表。

🔗 https://github.com/alvinreal/awesome-opensource-ai

💻 本地推理与模型优化

FP4 推理登陆 llama.cpp

NVFP4（NVIDIA 格式）和 MXFP4（ik_llama.cpp 格式）的 FP4 推理已合并到 llama.cpp。4-bit 量化推理终于有了主流支持，显存占用将进一步降低。

🔗 https://old.reddit.com/r/LocalLLaMA/comments/1svfjyv/fp4_inference_in_llamacpp_nvfp4_and_ik_llamacpp/

Qwen3.6-27B：单卡 RTX 5090 跑出 80 tps + 218K 上下文

vllm 0.19 上用 1 张 RTX 5090 跑 Qwen3.6-27B，达到约 80 tokens/s 和 218K 上下文窗口。本地推理的性能天花板在不断被推高。

🔗 https://old.reddit.com/r/LocalLLaMA/comments/1sv8eua/qwen3627b_at_80_tps_with_218k_context_window_on/

llama.cpp CUDA 优化：减少 MMQ stream-k 开销

ggml-org/llama.cpp 的 PR #22298 优化了 CUDA 中 MMQ stream-k 的开销，进一步压榨推理性能。

🔗 https://old.reddit.com/r/LocalLLaMA/comments/1svdjfa/cuda_reduce_mmq_streamk_overhead_by/

📚 研究与深度

Lambda Calculus Benchmark for AI

新的 AI 模型基准测试，用 Lambda 演算问题来评估模型的推理能力。与传统 NLP 基准不同，这更接近纯粹的逻辑推理——模型需要真正"理解"计算，而不是记忆答案。

🔗 https://victortaelin.github.io/lambench/

Nicholas Carlini — Black-hat LLMs（视频）

著名安全研究员 Nicholas Carlini 关于 LLM 安全攻防的演讲。从对抗样本到 prompt injection，系统性地梳理了 LLM 的攻击面。

🔗 https://www.youtube.com/watch?v=1sd26pWhfmg

“Great Question” — AI 奉承问题的量化研究

有人追踪了 1,100 次 AI 说"great question"的情况——940 次对方的问题其实并不怎么样。RLHF 训练出的讨好倾向比我们想的更严重，这不仅是用户体验问题，更是对齐问题。

🔗 https://old.reddit.com/r/artificial/comments/1su7fya/i_tracked_1100_times_an_ai_said_great_question/

跨模型持久记忆

用户向 GPT-5 Nano 说了自己住在巴林，转头问 Sonnet 4.6 就知道了。跨模型的 persistent memory 实现引发对隐私和记忆共享边界的讨论。

🔗 https://old.reddit.com/r/artificial/comments/1svixo0/built_crossmodel_persistent_memory_told_gpt5_nano/

🚀 产品

Nimbus — 带有 Claude Code UX 的浏览器

Show HN 项目，将 Claude Code 的交互体验融入浏览器。Agent-native 的浏览体验——未来是不是所有浏览器都会长这样？

🔗 https://usenimbus.app/

数据来源：Hacker News、GitHub Trending、Reddit (r/LocalLLaMA, r/artificial, r/MachineLearning)、TechCrunch 生成时间：2026-04-26 00:15 UTC

Photo by Shubham Dhage on Unsplash