上周我写了一篇 LLM 自动化 vs RPA:省的不是智能,是编排成本,提了一个「探索-编译-执行」的三层架构——LLM 先探索网页、找到可行路径,然后编译成代码,后续直接执行。
写完没几天,微软研究院发了 Webwright,几乎就是这套思路的学术验证。但让我意外的不是它验证了三层架构,而是另一个发现: harness 本身可以薄到离谱。
整个系统只有 ~1000 行代码,三个模块,没有 multi-agent 编排,没有复杂的动作空间设计。它给模型的东西只有一个——terminal。
[Read More]