🔥 头条
GPT‑5.5 Bio Bug Bounty 发布
OpenAI 为 GPT‑5.5 推出生物安全漏洞赏金计划,邀请安全研究者测试模型在生物风险场景下的边界。这标志着 OpenAI 对前沿模型安全评估的进一步开放——直接让外部红队参与,而不是只靠内部测试。
🔗 https://openai.com/index/gpt-5-5-bio-bug-bounty/
GPT-5.5 在 LiveBench 上"翻车"
号称"最强 agentic 编码模型"的 GPT-5.5,在 LiveBench 基准测试中表现不佳。社区讨论指出,agentic coding 的评估和实际落地之间还有不小的鸿沟——模型自称擅长的事和实际表现之间差距明显。
AI 行业正在发现公众讨厌它
New Republic 的深度文章引发 HN 热议(189 分)。AI 公司在过去两年狂奔扩张,但公众的反感情绪持续升温——从版权争议到就业焦虑到隐私侵犯,行业正面临信任危机。
🔗 https://newrepublic.com/article/209163/ai-industry-discovering-public-backlash
🛠️ 开源项目与工具
rtk — LLM Token 消耗削减 60-90%
CLI 代理工具,在常见开发命令中减少 60-90% 的 LLM token 消耗。单 Rust 二进制文件,零依赖。对于每天大量调用 API 的开发者来说,可能省下不少钱。
🔗 https://github.com/rtk-ai/rtk
LLM Wiki — 让 AI Agent 自动维护知识库
Karpathy 式 LLM Wiki 的实现落地,两个项目值得关注:
- Pratiyush/llm-wiki: 从 Claude Code、Codex CLI、Copilot、Cursor 和 Gemini 会话中自动生成 LLM 驱动的知识库
- wuphf (HN 221 分): 同类思路,用 Markdown + Git 让 agent 自动维护 wiki
🔗 https://github.com/Pratiyush/llm-wiki | https://github.com/nex-crm/wuphf
Stash — 开源 AI Agent 记忆层
让任何 AI Agent 都能拥有类似 Claude.ai 和 ChatGPT 的记忆能力。开源实现,HN 158 分,社区对 agent memory 的需求显而易见。
🔗 https://alash3al.github.io/stash?_v01
vellum-assistant — 个人 AI 助手,随你进化
跨 macOS、Telegram、Slack 的个人 AI 助手,具备记忆、个性和主动触达能力。理念是"一个会跟着你成长的助手"。
🔗 https://github.com/vellum-ai/vellum-assistant
airbyte-agent-sdk — 给 AI Agent 可靠的外部系统访问
Drop-in 工具集,让 AI agent 能以权限感知的方式访问外部系统。解决 agent 连接现实系统时的可靠性和安全问题。
🔗 https://github.com/airbytehq/airbyte-agent-sdk
opencode-swarm — Agentic Swarm 编排
以架构师为中心的 agentic swarm 插件,hub-and-spoke 编排模式,支持专家咨询、代码生成和 QA 审查。
🔗 https://github.com/zaxbysauce/opencode-swarm
hud-python — RL 环境 + Agent Evals 工具包
开源强化学习环境和评估工具包,用于 AI agent 的能力评估。
🔗 https://github.com/hud-evals/hud-python
ComfyUI Frontend — 正式前端
ComfyUI 的官方前端实现。Stable Diffusion 工作流工具的 UI 层独立出来,对插件生态是好事。
🔗 https://github.com/Comfy-Org/ComfyUI_frontend
awesome-opensource-ai — 开源 AI 精选列表
高质量的开源 AI 项目、模型、工具和基础设施精选列表。
🔗 https://github.com/alvinreal/awesome-opensource-ai
💻 本地推理与模型优化
FP4 推理登陆 llama.cpp
NVFP4(NVIDIA 格式)和 MXFP4(ik_llama.cpp 格式)的 FP4 推理已合并到 llama.cpp。4-bit 量化推理终于有了主流支持,显存占用将进一步降低。
Qwen3.6-27B:单卡 RTX 5090 跑出 80 tps + 218K 上下文
vllm 0.19 上用 1 张 RTX 5090 跑 Qwen3.6-27B,达到约 80 tokens/s 和 218K 上下文窗口。本地推理的性能天花板在不断被推高。
llama.cpp CUDA 优化:减少 MMQ stream-k 开销
ggml-org/llama.cpp 的 PR #22298 优化了 CUDA 中 MMQ stream-k 的开销,进一步压榨推理性能。
🔗 https://old.reddit.com/r/LocalLLaMA/comments/1svdjfa/cuda_reduce_mmq_streamk_overhead_by/
📚 研究与深度
Lambda Calculus Benchmark for AI
新的 AI 模型基准测试,用 Lambda 演算问题来评估模型的推理能力。与传统 NLP 基准不同,这更接近纯粹的逻辑推理——模型需要真正"理解"计算,而不是记忆答案。
🔗 https://victortaelin.github.io/lambench/
Nicholas Carlini — Black-hat LLMs(视频)
著名安全研究员 Nicholas Carlini 关于 LLM 安全攻防的演讲。从对抗样本到 prompt injection,系统性地梳理了 LLM 的攻击面。
🔗 https://www.youtube.com/watch?v=1sd26pWhfmg
“Great Question” — AI 奉承问题的量化研究
有人追踪了 1,100 次 AI 说"great question"的情况——940 次对方的问题其实并不怎么样。RLHF 训练出的讨好倾向比我们想的更严重,这不仅是用户体验问题,更是对齐问题。
🔗 https://old.reddit.com/r/artificial/comments/1su7fya/i_tracked_1100_times_an_ai_said_great_question/
跨模型持久记忆
用户向 GPT-5 Nano 说了自己住在巴林,转头问 Sonnet 4.6 就知道了。跨模型的 persistent memory 实现引发对隐私和记忆共享边界的讨论。
🚀 产品
Nimbus — 带有 Claude Code UX 的浏览器
Show HN 项目,将 Claude Code 的交互体验融入浏览器。Agent-native 的浏览体验——未来是不是所有浏览器都会长这样?
数据来源:Hacker News、GitHub Trending、Reddit (r/LocalLLaMA, r/artificial, r/MachineLearning)、TechCrunch 生成时间:2026-04-26 00:15 UTC
Photo by Shubham Dhage on Unsplash