<?xml version="1.0" encoding="utf-8" standalone="yes"?><rss version="2.0" xmlns:atom="http://www.w3.org/2005/Atom"><channel><title>Agent-as-a-Judge on All about Raspberry Pi</title><link>https://hugozhu.site/tags/agent-as-a-judge/</link><description>Recent content in Agent-as-a-Judge on All about Raspberry Pi</description><generator>Hugo</generator><language>en</language><lastBuildDate>Thu, 07 May 2026 00:00:00 +0000</lastBuildDate><atom:link href="https://hugozhu.site/tags/agent-as-a-judge/index.xml" rel="self" type="application/rss+xml"/><item><title>Agent-as-a-Judge：自进化Agent的眼睛</title><link>https://hugozhu.site/post/2026/200-agent-as-a-judge-self-evolution-evaluation/</link><pubDate>Thu, 07 May 2026 00:00:00 +0000</pubDate><guid>https://hugozhu.site/post/2026/200-agent-as-a-judge-self-evolution-evaluation/</guid><description>&lt;p&gt;上周，一个朋友的团队遇到了这样一件事：他们部署了一个 Coding Agent，让它独立完成一个微服务模块的重构。Agent 跑了整整 6 个小时，提交了 47 个 commit，改了 2000 多行代码。第二天早上，Tech Lead 打开 PR，看着满屏的 diff，沉默了五分钟，说了一句：&amp;ldquo;我怎么知道它中间做对了什么、做错了什么？&amp;rdquo;&lt;/p&gt;
&lt;p&gt;这不是个例。随着 Agent 能处理的任务越来越长、越来越复杂，一个被忽略的问题浮出水面：&lt;strong&gt;谁来评估 Agent 的工作？&lt;/strong&gt;&lt;/p&gt;</description></item></channel></rss>