Featured image of post AI News Daily | 2026-04-26

AI News Daily | 2026-04-26


🔥 头条

GPT‑5.5 Bio Bug Bounty 发布

OpenAI 为 GPT‑5.5 推出生物安全漏洞赏金计划,邀请安全研究者测试模型在生物风险场景下的边界。这标志着 OpenAI 对前沿模型安全评估的进一步开放——直接让外部红队参与,而不是只靠内部测试。

🔗 https://openai.com/index/gpt-5-5-bio-bug-bounty/

GPT-5.5 在 LiveBench 上"翻车"

号称"最强 agentic 编码模型"的 GPT-5.5,在 LiveBench 基准测试中表现不佳。社区讨论指出,agentic coding 的评估和实际落地之间还有不小的鸿沟——模型自称擅长的事和实际表现之间差距明显。

🔗 https://old.reddit.com/r/artificial/comments/1sv4l94/gpt55_strongest_agentic_coding_model_ever_failing/

AI 行业正在发现公众讨厌它

New Republic 的深度文章引发 HN 热议(189 分)。AI 公司在过去两年狂奔扩张,但公众的反感情绪持续升温——从版权争议到就业焦虑到隐私侵犯,行业正面临信任危机。

🔗 https://newrepublic.com/article/209163/ai-industry-discovering-public-backlash


🛠️ 开源项目与工具

rtk — LLM Token 消耗削减 60-90%

CLI 代理工具,在常见开发命令中减少 60-90% 的 LLM token 消耗。单 Rust 二进制文件,零依赖。对于每天大量调用 API 的开发者来说,可能省下不少钱。

🔗 https://github.com/rtk-ai/rtk

LLM Wiki — 让 AI Agent 自动维护知识库

Karpathy 式 LLM Wiki 的实现落地,两个项目值得关注:

  • Pratiyush/llm-wiki: 从 Claude Code、Codex CLI、Copilot、Cursor 和 Gemini 会话中自动生成 LLM 驱动的知识库
  • wuphf (HN 221 分): 同类思路,用 Markdown + Git 让 agent 自动维护 wiki

🔗 https://github.com/Pratiyush/llm-wiki | https://github.com/nex-crm/wuphf

Stash — 开源 AI Agent 记忆层

让任何 AI Agent 都能拥有类似 Claude.ai 和 ChatGPT 的记忆能力。开源实现,HN 158 分,社区对 agent memory 的需求显而易见。

🔗 https://alash3al.github.io/stash?_v01

vellum-assistant — 个人 AI 助手,随你进化

跨 macOS、Telegram、Slack 的个人 AI 助手,具备记忆、个性和主动触达能力。理念是"一个会跟着你成长的助手"。

🔗 https://github.com/vellum-ai/vellum-assistant

airbyte-agent-sdk — 给 AI Agent 可靠的外部系统访问

Drop-in 工具集,让 AI agent 能以权限感知的方式访问外部系统。解决 agent 连接现实系统时的可靠性和安全问题。

🔗 https://github.com/airbytehq/airbyte-agent-sdk

opencode-swarm — Agentic Swarm 编排

以架构师为中心的 agentic swarm 插件,hub-and-spoke 编排模式,支持专家咨询、代码生成和 QA 审查。

🔗 https://github.com/zaxbysauce/opencode-swarm

hud-python — RL 环境 + Agent Evals 工具包

开源强化学习环境和评估工具包,用于 AI agent 的能力评估。

🔗 https://github.com/hud-evals/hud-python

ComfyUI Frontend — 正式前端

ComfyUI 的官方前端实现。Stable Diffusion 工作流工具的 UI 层独立出来,对插件生态是好事。

🔗 https://github.com/Comfy-Org/ComfyUI_frontend

awesome-opensource-ai — 开源 AI 精选列表

高质量的开源 AI 项目、模型、工具和基础设施精选列表。

🔗 https://github.com/alvinreal/awesome-opensource-ai


💻 本地推理与模型优化

FP4 推理登陆 llama.cpp

NVFP4(NVIDIA 格式)和 MXFP4(ik_llama.cpp 格式)的 FP4 推理已合并到 llama.cpp。4-bit 量化推理终于有了主流支持,显存占用将进一步降低。

🔗 https://old.reddit.com/r/LocalLLaMA/comments/1svfjyv/fp4_inference_in_llamacpp_nvfp4_and_ik_llamacpp/

Qwen3.6-27B:单卡 RTX 5090 跑出 80 tps + 218K 上下文

vllm 0.19 上用 1 张 RTX 5090 跑 Qwen3.6-27B,达到约 80 tokens/s 和 218K 上下文窗口。本地推理的性能天花板在不断被推高。

🔗 https://old.reddit.com/r/LocalLLaMA/comments/1sv8eua/qwen3627b_at_80_tps_with_218k_context_window_on/

llama.cpp CUDA 优化:减少 MMQ stream-k 开销

ggml-org/llama.cpp 的 PR #22298 优化了 CUDA 中 MMQ stream-k 的开销,进一步压榨推理性能。

🔗 https://old.reddit.com/r/LocalLLaMA/comments/1svdjfa/cuda_reduce_mmq_streamk_overhead_by/


📚 研究与深度

Lambda Calculus Benchmark for AI

新的 AI 模型基准测试,用 Lambda 演算问题来评估模型的推理能力。与传统 NLP 基准不同,这更接近纯粹的逻辑推理——模型需要真正"理解"计算,而不是记忆答案。

🔗 https://victortaelin.github.io/lambench/

Nicholas Carlini — Black-hat LLMs(视频)

著名安全研究员 Nicholas Carlini 关于 LLM 安全攻防的演讲。从对抗样本到 prompt injection,系统性地梳理了 LLM 的攻击面。

🔗 https://www.youtube.com/watch?v=1sd26pWhfmg

“Great Question” — AI 奉承问题的量化研究

有人追踪了 1,100 次 AI 说"great question"的情况——940 次对方的问题其实并不怎么样。RLHF 训练出的讨好倾向比我们想的更严重,这不仅是用户体验问题,更是对齐问题。

🔗 https://old.reddit.com/r/artificial/comments/1su7fya/i_tracked_1100_times_an_ai_said_great_question/

跨模型持久记忆

用户向 GPT-5 Nano 说了自己住在巴林,转头问 Sonnet 4.6 就知道了。跨模型的 persistent memory 实现引发对隐私和记忆共享边界的讨论。

🔗 https://old.reddit.com/r/artificial/comments/1svixo0/built_crossmodel_persistent_memory_told_gpt5_nano/


🚀 产品

Nimbus — 带有 Claude Code UX 的浏览器

Show HN 项目,将 Claude Code 的交互体验融入浏览器。Agent-native 的浏览体验——未来是不是所有浏览器都会长这样?

🔗 https://usenimbus.app/


数据来源:Hacker News、GitHub Trending、Reddit (r/LocalLLaMA, r/artificial, r/MachineLearning)、TechCrunch 生成时间:2026-04-26 00:15 UTC


Photo by Shubham Dhage on Unsplash

Licensed under CC BY-NC-SA 4.0