Observability

AI Agent 定时任务的自动优化

Posted on May 30, 2026 | 8 min | 1656 words

上个月，我发现一个跑了 3 周的定时任务每天都在用 Claude Sonnet 4 做一件极其简单的事——搜索两条关键词、整理成表格、发给我。每次消耗约 8000 token，成本 $0.12。换成 GPT-4o-mini，同样的任务 2000 token 就够，成本 $0.003。

3 周 × 每天 $0.12 = $2.52。换成 mini 只要 $0.06。

这不是模型的问题，也不是调度器的问题——是 调度器和模型选择之间缺了一层。你的 cron 系统知道什么时候该跑这个任务，但完全不知道该用什么模型、多少推理深度来跑。

Posted on May 19, 2026 | 8 min | 1681 words

你的团队已经把悟空（或企业级 AI Agent）接入了核心业务流。

上线第一周，一切顺利。第二周开始，客服团队反馈：「Agent 昨天给客户报了错误的价格，今天又把两个订单搞混了。」你打开日志，看到的是几千条 200 OK 的 API 响应——传统监控告诉你系统「健康」，但业务侧已经出了事故。

更痛苦的是调试过程：你无法复现问题，因为 Agent 的每次执行路径都不同；你找不到是哪一步出了问题，因为日志里只有输入和最终输出，中间的工具调用、推理链、状态变更全是一片黑盒。

这不是 Bug，这是 AI Agent 的「非确定性」本质。 传统软件的可观测性（APM、日志、指标）在 Agent 面前几乎失效。

在前面的十三篇文章中，我们构建了从需求澄清、多 Agent 编排到成熟度模型的完整体系。但当 Agent 真正跑在生产环境时，你会发现：没有可观测性，就没有可靠性。

今天，我们推出系列的第十四篇：如何为 AI Agent 构建生产级可观测性体系，实现从「黑盒盲猜」到「白盒定位」的调试范式转变。

Posted on May 18, 2026 | 3 min | 613 words

你让悟空生成了一份技术方案，通读一遍觉得「逻辑清晰、结构完整」，直接交给了研发团队。一周后，架构师反馈：方案里 30% 的接口定义缺少边界条件说明，两个核心组件的选型缺乏压测数据支撑，根本无法进入开发排期。

你让 AI 写了一段数据清洗脚本，本地跑通了样例数据，直接部署到生产环境。三天后，监控报警：遇到脏数据时脚本静默失败，导致下游报表连续两天数据断层。

AI 的输出「看起来很好」，不等于「工程上可用」。

但所有这些技巧，都依赖一个隐含假设：人类能准确判断 AI 的输出质量。

现实是：人类审查会疲劳、会受认知偏差影响、无法覆盖边界条件，且根本无法规模化。当 AI 协作从「个人玩具」走向「团队基础设施」时，靠「感觉不错」来验收，就是埋下生产事故的种子。

今天，我们探讨技巧十：如何通过「评估与度量」，建立自动化质量门禁和数据飞轮，让 AI 协作从「主观验收」走向「可观测、可度量、可演进」的工程闭环。

Posted on April 17, 2026 | 5 min | 876 words

上周我让 Claude Code 帮我跑一遍我的 Tauri 笔记应用的回归测试。给它的任务很简单：「新建一条笔记，输入’hello’，保存，重启应用，验证笔记还在」。

它失败了。不是因为应用有 bug，而是因为它根本看不见这个应用——它能启动进程、能截屏，但屏幕里的「新建按钮」对它来说是一团像素；它知道「保存」这个动词，但不知道怎么把这个动词翻译成 IPC 调用；它甚至不知道「重启之后笔记是否还在」这件事该去哪里查证。

那一刻我意识到：让 AI 测试一个应用，瓶颈从来不在 AI 的能力，而在于这个应用本身是否「可被 AI 测试」。这是一种新的工程属性，我把它叫做 AI Test Ready。