<?xml version="1.0" encoding="utf-8" standalone="yes"?><rss version="2.0" xmlns:atom="http://www.w3.org/2005/Atom"><channel><title>Llm-as-a-Judge on All about Raspberry Pi</title><link>https://hugozhu.site/tags/llm-as-a-judge/</link><description>Recent content in Llm-as-a-Judge on All about Raspberry Pi</description><generator>Hugo</generator><language>en</language><lastBuildDate>Mon, 18 May 2026 00:00:00 +0000</lastBuildDate><atom:link href="https://hugozhu.site/tags/llm-as-a-judge/index.xml" rel="self" type="application/rss+xml"/><item><title>悟空技巧十：评估与度量，用数据驱动 AI 协作持续进化</title><link>https://hugozhu.site/post/2026/225-wukong-prompt-evaluation-and-metrics/</link><pubDate>Mon, 18 May 2026 00:00:00 +0000</pubDate><guid>https://hugozhu.site/post/2026/225-wukong-prompt-evaluation-and-metrics/</guid><description>&lt;p&gt;你让悟空生成了一份技术方案，通读一遍觉得「逻辑清晰、结构完整」，直接交给了研发团队。一周后，架构师反馈：方案里 30% 的接口定义缺少边界条件说明，两个核心组件的选型缺乏压测数据支撑，根本无法进入开发排期。&lt;/p&gt;
&lt;p&gt;你让 AI 写了一段数据清洗脚本，本地跑通了样例数据，直接部署到生产环境。三天后，监控报警：遇到脏数据时脚本静默失败，导致下游报表连续两天数据断层。&lt;/p&gt;
&lt;p&gt;&lt;strong&gt;AI 的输出「看起来很好」，不等于「工程上可用」。&lt;/strong&gt;&lt;/p&gt;
&lt;p&gt;在前面的九篇文章中，我们构建了从 &lt;a href="https://hugozhu.site/post/2026/211-wukong-prompt-clarification-technique/"&gt;需求澄清&lt;/a&gt;、&lt;a href="https://hugozhu.site/post/2026/217-wukong-prompt-deliverable-first/"&gt;交付物定义&lt;/a&gt;、&lt;a href="https://hugozhu.site/post/2026/218-wukong-prompt-example-driven/"&gt;示例对齐&lt;/a&gt;、&lt;a href="https://hugozhu.site/post/2026/219-wukong-prompt-step-by-step-execution/"&gt;分步执行&lt;/a&gt;、&lt;a href="https://hugozhu.site/post/2026/220-wukong-prompt-iterative-refinement/"&gt;迭代优化&lt;/a&gt;、&lt;a href="https://hugozhu.site/post/2026/221-wukong-prompt-context-management/"&gt;上下文管理&lt;/a&gt;、&lt;a href="https://hugozhu.site/post/2026/222-wukong-prompt-tool-augmented/"&gt;工具协同&lt;/a&gt;、&lt;a href="https://hugozhu.site/post/2026/223-wukong-prompt-systematization/"&gt;工程化封装&lt;/a&gt; 到 &lt;a href="https://hugozhu.site/post/2026/224-wukong-prompt-multi-agent-orchestration/"&gt;多 Agent 协同&lt;/a&gt; 的完整工作流。&lt;/p&gt;
&lt;p&gt;但所有这些技巧，都依赖一个隐含假设：&lt;strong&gt;人类能准确判断 AI 的输出质量。&lt;/strong&gt;&lt;/p&gt;
&lt;p&gt;现实是：人类审查会疲劳、会受认知偏差影响、无法覆盖边界条件，且根本无法规模化。当 AI 协作从「个人玩具」走向「团队基础设施」时，靠「感觉不错」来验收，就是埋下生产事故的种子。&lt;/p&gt;
&lt;p&gt;今天，我们探讨技巧十：&lt;strong&gt;如何通过「评估与度量」，建立自动化质量门禁和数据飞轮，让 AI 协作从「主观验收」走向「可观测、可度量、可演进」的工程闭环。&lt;/strong&gt;&lt;/p&gt;</description></item></channel></rss>