悟空技巧十二:Token 经济学,用工程手段优化 AI 协作成本与延迟

Wukong Tip #12: Token Economics and Performance Optimization at Scale

你的团队全面接入悟空(或企业级 AI 平台)三个月后,CTO 把两份报告拍在了你的桌上。

第一份是财务账单:API 调用费用环比增长了 400%,其中 60% 的 Token 消耗在生成「无用的客套话」和「重复的上下文注入」上。 第二份是用户体验报告:核心业务场景的平均首字延迟(TTFT)高达 8 秒,客服团队抱怨 AI 响应太慢,导致客户在等待中流失。

AI 能力很强,但如果成本压不住、延迟降不下,它就无法成为真正的生产基础设施。

在前面的十一篇文章中,我们构建了从 需求澄清流程控制多 Agent 编排安全防御 的完整工程体系。

但所有这些技巧,都聚焦在「功能实现」和「质量保障」。当 AI 协作从「试点项目」走向「规模化运营」时,Token 消耗(成本)和推理延迟(性能) 将成为决定项目生死的硬指标。

今天,我们探讨技巧十二,也是本系列的收官之作如何通过「Token 经济学」,用工程手段优化 AI 协作的成本与延迟,实现质量、速度与 ROI 的最佳平衡。

[Read More]

悟空技巧四:分步执行,用 Planning 思维驾驭复杂任务

Wukong Tip #4: Step-by-Step Execution for Complex Tasks

当你让悟空「设计一个高并发电商系统架构」或「重构这段 500 行的遗留代码」时,你是否遇到过这样的崩溃时刻:

AI 洋洋洒洒生成了两千字,前半部分逻辑严密,后半部分开始胡言乱语;或者它给出了一个看似完美的方案,但当你深入细节时,发现核心链路的设计完全是幻觉,根本无法落地。

试图让 AI 一口吃成胖子,是复杂任务失败的头号原因。

在前面的文章中,我们分别解决了 需求模糊格式返工风格不对齐 的问题。但这些都是针对「单次交互」的优化。

当面对多步骤、长链条、高复杂度的任务时,单次 Prompt 往往会突破 AI 的注意力窗口或推理能力上限,导致逻辑断裂或幻觉。

今天,我们探讨技巧四:如何通过「分步执行」,用 Planning 思维驾驭复杂任务,确保每一步都稳扎稳打。

[Read More]

企业级 Agent 落地:要抓好左右手

The Two-Hand Framework for Enterprise AI Agents

上周和一个做企业数字化的朋友吃饭。他公司去年花了两百多万,引入了一套"AI Agent 平台"。

销售演示的时候很惊艳:对着对话框说一句话,系统就能生成报表、审批流程、甚至写 SQL 查数据。

上线三个月后,他告诉我:

“员工用了两周就放弃了。现在那个系统成了公司最贵的摆设。”

我问他:系统出 Bug 了?

他说:不是。是系统不会变聪明

第一个月,Agent 回答问题的准确率大概 70%。第二个月还是 70%。第三个月,员工发现问同样的问题,得到的答案一模一样——系统完全没有从实际使用中学到任何东西。

“它就是个会说话的自动化脚本。”

这句话戳中了一个很多人不愿承认的事实:

今天市面上 90% 的"企业 Agent",本质上只是给 LLM 套了个聊天框。

[Read More]

Agent 的 Skill 自进化机制:它是如何自己长记性的

How LLM Agents Self-Improve Through Procedural Memory Evolution

昨天我用 Agent 处理一个棘手的部署任务。它第一次跑的时候踩了个坑——少了一步 docker login,推送镜像时报错了。Agent 发现问题,自己补上登录步骤,重试后跑通了。

但最让我惊讶的不是它跑通了,而是它默默更新了自己的操作手册

下一次我再让它做同样的任务时,它直接带上了 docker login,一步到位。

它自己"长记性"了。

这不是魔法,是 Hermes Agent 的 Skill 自进化机制。它把一次性的试错经验,固化成了可复用的程序化记忆。

[Read More]

LLM Agent 上下文压缩算法

How Modern LLM Agents Manage Context Windows Without Losing Track of Your Task

跑了一个长对话 session,agent 帮我重构了一个模块,修了三个 bug,又加了一组测试——最后触发了 context compression,屏幕上显示:“Compressed: 347 -> 18 messages (~89,000 tokens saved, 74%)"。

我好奇它是怎么做到的:压缩了 89K tokens 后,agent 继续干活,居然还记得之前改过的文件路径、失败的测试用例、我说过"不要用 == 要用 is 比较 None"这种细节。

这不是魔术,是一个经过大量 bug 修复迭代出来的上下文压缩算法。我花了两个小时读了 Hermes Agent 的 context_compressor.py,1163 行代码,每一步都有对应的失败案例和修复注释。

[Read More]

Agent = Model + Harness:从 Anthropic Managed Agents 看 Agent 架构演进

Why Agent Architecture is About Stable Interfaces, Not Just Better Models

如果把 Agent 拆解成一个公式,最简单的表达就是:

Agent = Model + Harness

Model 负责思考、推理、决策;Harness 负责循环控制、工具路由、状态管理。过去一年,社区的目光几乎全部聚焦在 Model 上——谁的能力强、谁更便宜、谁上下文更大。但 Anthropic 工程团队最近发布的 Managed Agents 架构文章揭示了一个被忽视的事实:

“Harnesses encode assumptions about what Claude can’t do on its own. Those assumptions go stale as models improve.”

Harness 编码了关于"模型做不到什么"的假设,而这些假设会随着模型能力提升而迅速过时。一个更有趣的推论是:模型越强,Harness 的设计就越重要——因为越强的模型需要越精密的控制结构,才能把能力转化为可靠的产出。

这篇文章从 Anthropic 的工程实践出发,拆解 Agent 架构的核心设计模式,以及"面向未来的 Harness"到底长什么样。

[Read More]

用 LLM 构建程序化知识系统:记忆、技能与进化

从静态 Prompt 到持续生长的数字大脑

上周我让 AI Agent 帮我写博客。它干得不错——风格、结构、代码规范都对。因为我之前花了一个下午,让它读完我的 174 篇旧文,把写作风格提炼成了一份可执行的 Skill 文件。

第二天我让它再写一篇,它又对了。第三天,还是对的。到第四天,我发现了一件有意思的事:它自己改了 Skill 文件。它在"反模式"列表里新增了一条——“不要用’随着 AI 的发展’开头”——这是前几次我手动纠正过的,但我从来没有明确要求它把这个规则写进去。

那一刻我意识到,这个 Agent 已经不是在"执行指令"了。它在积累经验

但紧接着我遇到了下一个问题:它记住了"怎么写文章",却不记得"上次写了什么"。我让它写一篇关于 Agent 进化的文章,它洋洋洒洒写了 800 行——和三天前那篇重复了 60%。技能在进化,记忆在归零,知识没有沉淀。三条腿,只长了一条。

这个经历让我重新审视了一个问题:我们到底需要怎样的知识架构,才能让 Agent 真正"越用越强"?不是靠更大的上下文窗口,不是靠更贵的模型,而是一套程序化的记忆、知识与技能管理系统

Karpathy 和社区最近的两个项目——让 Agent 一晚自主迭代 100 次实验的 autoresearch,和把任意文件夹变成可查询知识图谱的 graphify(25k+ stars)——也在指向同一个方向。

[Read More]

从泛化到进化:AI Agent 的下一站

泛化是空间维度的适应能力,进化是时间维度的适应能力

前几天跟一个做 Agent 平台的朋友聊天,他说了一句让我印象很深的话:“我们花了半年调 prompt,好不容易让 Agent 在电商客服场景跑到了 90 分。结果客户说要扩到金融场景,我们一测——40 分都不到。”

我问他打算怎么办。

他苦笑:“重新调呗。再花半年。”

这个对话浓缩了当前 AI Agent 面临的最核心矛盾:我们造出了能力惊人但本质上是"静态"的系统。它在训练过的分布上表现惊艳,换个分布就翻车;它部署的那一刻就被冻结,遇到新场景只能等人类手动干预、重新训练。

这让我开始思考两个看似不同、实则紧密相连的问题:泛化(Generalization)进化(Evolution)

[Read More]

AI Native 流程的一头一尾:用户问题理解与自动验证

VOC 自动解决流程中,最难也最关键的两个环节

之前写过一篇用 AI 把 VOC 变成自动化流水线,讲的是整条流水线的架构——采集、分析、路由、执行。反馈不错,但也有读者指出一个关键问题:中间的部分(分类、路由)其实相对好做,真正难的是一头一尾。

“头"是用户问题理解——用户说"页面打不开”,你能不能自动搞清楚是哪个页面、什么场景、能不能复现、根因是什么?

“尾"是自动验证——修完 bug 之后,你能不能自动生成测试用例来证明"确实修好了,而且没有搞坏别的东西”?

这两个环节恰好是 AI Native 流程区别于传统自动化的核心:传统自动化靠规则,处理的是确定性问题;AI Native 靠理解和推理,处理的是模糊性问题。这篇文章就把这一头一尾拆开讲透。

[Read More]

LLM 押注在 Coding Agent 上是正确的

当每个人都能写代码,IT 系统的瓶颈不再是技术,而是想象力

三个月前,我用 Claude Code 花了一个下午搭了一套完整的钉钉消息监控系统:自动抓取指定群的消息、按关键词分类、生成每日摘要、定时推送到我的私聊。整套流程从数据采集到定时任务,大约 500 行 TypeScript。

同样的事情,如果走公司正规 IT 流程——提需求、排期、开发、测试、上线——保守估计三个月,还不一定能排上。

这件事让我确信一个判断:LLM 厂商把重注押在 Coding Agent 上,是目前最正确的战略选择。 不是因为 Coding Agent 能替代程序员,而是因为它把"用代码解决问题"这件事的门槛,从"需要一个工程团队"降到了"需要一个能清楚描述问题的人"。

[Read More]