Agent-as-a-Judge：自进化Agent的眼睛

Thu, 07 May 2026 00:00:00 +0000

上周，一个朋友的团队遇到了这样一件事：他们部署了一个 Coding Agent，让它独立完成一个微服务模块的重构。Agent 跑了整整 6 个小时，提交了 47 个 commit，改了 2000 多行代码。第二天早上，Tech Lead 打开 PR，看着满屏的 diff，沉默了五分钟，说了一句：“我怎么知道它中间做对了什么、做错了什么？”

这不是个例。随着 Agent 能处理的任务越来越长、越来越复杂，一个被忽略的问题浮出水面：谁来评估 Agent 的工作？

Agent-as-a-Judge on All about Raspberry Pi

Agent-as-a-Judge：自进化Agent的眼睛