AI Agent 定时任务的自动优化

Telemetry-driven cron optimization for AI agent runtimes

上个月,我发现一个跑了 3 周的定时任务每天都在用 Claude Sonnet 4 做一件极其简单的事——搜索两条关键词、整理成表格、发给我。每次消耗约 8000 token,成本 $0.12。换成 GPT-4o-mini,同样的任务 2000 token 就够,成本 $0.003。

3 周 × 每天 $0.12 = $2.52。换成 mini 只要 $0.06。

这不是模型的问题,也不是调度器的问题——是 调度器和模型选择之间缺了一层。你的 cron 系统知道什么时候该跑这个任务,但完全不知道该用什么模型、多少推理深度来跑。

从盲调度到自适应调度

[Read More]

悟空技巧十四:AI Agent 生产环境调试与可观测性,当 AI 开始「胡说八道」时如何快速定位根因

Wukong Tip #14: Production Debugging and Observability for AI Agents

你的团队已经把悟空(或企业级 AI Agent)接入了核心业务流。

上线第一周,一切顺利。第二周开始,客服团队反馈:「Agent 昨天给客户报了错误的价格,今天又把两个订单搞混了。」你打开日志,看到的是几千条 200 OK 的 API 响应——传统监控告诉你系统「健康」,但业务侧已经出了事故。

更痛苦的是调试过程:你无法复现问题,因为 Agent 的每次执行路径都不同;你找不到是哪一步出了问题,因为日志里只有输入和最终输出,中间的工具调用、推理链、状态变更全是一片黑盒。

这不是 Bug,这是 AI Agent 的「非确定性」本质。 传统软件的可观测性(APM、日志、指标)在 Agent 面前几乎失效。

在前面的十三篇文章中,我们构建了从 需求澄清多 Agent 编排成熟度模型 的完整体系。但当 Agent 真正跑在生产环境时,你会发现:没有可观测性,就没有可靠性。

今天,我们推出系列的第十四篇如何为 AI Agent 构建生产级可观测性体系,实现从「黑盒盲猜」到「白盒定位」的调试范式转变。

[Read More]

悟空技巧十:评估与度量,用数据驱动 AI 协作持续进化

Wukong Tip #10: Evaluation, Metrics, and Data-Driven Continuous Improvement

你让悟空生成了一份技术方案,通读一遍觉得「逻辑清晰、结构完整」,直接交给了研发团队。一周后,架构师反馈:方案里 30% 的接口定义缺少边界条件说明,两个核心组件的选型缺乏压测数据支撑,根本无法进入开发排期。

你让 AI 写了一段数据清洗脚本,本地跑通了样例数据,直接部署到生产环境。三天后,监控报警:遇到脏数据时脚本静默失败,导致下游报表连续两天数据断层。

AI 的输出「看起来很好」,不等于「工程上可用」。

在前面的九篇文章中,我们构建了从 需求澄清交付物定义示例对齐分步执行迭代优化上下文管理工具协同工程化封装多 Agent 协同 的完整工作流。

但所有这些技巧,都依赖一个隐含假设:人类能准确判断 AI 的输出质量。

现实是:人类审查会疲劳、会受认知偏差影响、无法覆盖边界条件,且根本无法规模化。当 AI 协作从「个人玩具」走向「团队基础设施」时,靠「感觉不错」来验收,就是埋下生产事故的种子。

今天,我们探讨技巧十:如何通过「评估与度量」,建立自动化质量门禁和数据飞轮,让 AI 协作从「主观验收」走向「可观测、可度量、可演进」的工程闭环。

[Read More]

AI Test Ready:把 Tauri 应用改造成可被 AI Agent 测试的系统

Engineering Practices for Making Desktop Apps Testable by AI Agents

上周我让 Claude Code 帮我跑一遍我的 Tauri 笔记应用的回归测试。给它的任务很简单:「新建一条笔记,输入’hello’,保存,重启应用,验证笔记还在」。

它失败了。不是因为应用有 bug,而是因为它根本看不见这个应用——它能启动进程、能截屏,但屏幕里的「新建按钮」对它来说是一团像素;它知道「保存」这个动词,但不知道怎么把这个动词翻译成 IPC 调用;它甚至不知道「重启之后笔记是否还在」这件事该去哪里查证。

那一刻我意识到:让 AI 测试一个应用,瓶颈从来不在 AI 的能力,而在于这个应用本身是否「可被 AI 测试」。这是一种新的工程属性,我把它叫做 AI Test Ready。

[Read More]