LLM - Hugo Zhu's Blog

悟空技巧十三：AI 协作成熟度模型，从个人玩具到企业基础设施的演进路径

Wukong Tip #13: AI Collaboration Maturity Model and Evolution Roadmap

Posted on May 18, 2026 | 3 min | 587 words

你的团队引入悟空（或企业级 AI 平台）已经半年了。

现状是：少数极客员工能用 AI 写出惊艳的代码和方案，效率提升 300%；但 80% 的员工依然只把 AI 当作「高级搜索引擎」或「翻译工具」，偶尔让它润色一下邮件。更糟糕的是，由于缺乏统一标准，大家各自为战，Prompt 散落在聊天记录里，Token 账单失控，甚至发生了两次 Prompt 注入导致的数据泄露事故。

CTO 问你：「我们现在的 AI 落地到底处于什么水平？下一步该重点投什么资源？怎么制定未来 6 个月的 Roadmap？」

你发现，虽然团队学了一堆 Prompt 技巧，但缺乏一张全局的演进地图。不知道当前水位，就不知道下一步该补什么；没有分级标准，就无法制定合理的落地节奏。

在前面的十二篇文章中，我们构建了从需求澄清、流程控制、工程化封装、多 Agent 编排到安全与成本治理的完整技巧体系。

今天，我们推出系列的压轴之作（技巧十三）：如何通过「AI 协作成熟度模型」，为团队定位当前水位、识别核心瓶颈、制定可落地的演进路线图，实现从「个人玩具」到「企业基础设施」的系统化跃迁。

悟空技巧十二：Token 经济学，用工程手段优化 AI 协作成本与延迟

Wukong Tip #12: Token Economics and Performance Optimization at Scale

Posted on May 18, 2026 | 4 min | 683 words

你的团队全面接入悟空（或企业级 AI 平台）三个月后，CTO 把两份报告拍在了你的桌上。

第一份是财务账单：API 调用费用环比增长了 400%，其中 60% 的 Token 消耗在生成「无用的客套话」和「重复的上下文注入」上。第二份是用户体验报告：核心业务场景的平均首字延迟（TTFT）高达 8 秒，客服团队抱怨 AI 响应太慢，导致客户在等待中流失。

AI 能力很强，但如果成本压不住、延迟降不下，它就无法成为真正的生产基础设施。

在前面的十一篇文章中，我们构建了从需求澄清、流程控制、多 Agent 编排到安全防御的完整工程体系。

但所有这些技巧，都聚焦在「功能实现」和「质量保障」。当 AI 协作从「试点项目」走向「规模化运营」时，Token 消耗（成本）和推理延迟（性能） 将成为决定项目生死的硬指标。

今天，我们探讨技巧十二，也是本系列的收官之作：如何通过「Token 经济学」，用工程手段优化 AI 协作的成本与延迟，实现质量、速度与 ROI 的最佳平衡。

悟空技巧四：分步执行，用 Planning 思维驾驭复杂任务

Wukong Tip #4: Step-by-Step Execution for Complex Tasks

Posted on May 18, 2026 | 2 min | 256 words

当你让悟空「设计一个高并发电商系统架构」或「重构这段 500 行的遗留代码」时，你是否遇到过这样的崩溃时刻：

AI 洋洋洒洒生成了两千字，前半部分逻辑严密，后半部分开始胡言乱语；或者它给出了一个看似完美的方案，但当你深入细节时，发现核心链路的设计完全是幻觉，根本无法落地。

试图让 AI 一口吃成胖子，是复杂任务失败的头号原因。

在前面的文章中，我们分别解决了需求模糊、格式返工和风格不对齐的问题。但这些都是针对「单次交互」的优化。

当面对多步骤、长链条、高复杂度的任务时，单次 Prompt 往往会突破 AI 的注意力窗口或推理能力上限，导致逻辑断裂或幻觉。

今天，我们探讨技巧四：如何通过「分步执行」，用 Planning 思维驾驭复杂任务，确保每一步都稳扎稳打。

企业级 Agent 落地：要抓好左右手

The Two-Hand Framework for Enterprise AI Agents

Posted on May 13, 2026 | 4 min | 715 words

上周和一个做企业数字化的朋友吃饭。他公司去年花了两百多万，引入了一套"AI Agent 平台"。

销售演示的时候很惊艳：对着对话框说一句话，系统就能生成报表、审批流程、甚至写 SQL 查数据。

上线三个月后，他告诉我：

“员工用了两周就放弃了。现在那个系统成了公司最贵的摆设。”

我问他：系统出 Bug 了？

他说：不是。是系统不会变聪明。

第一个月，Agent 回答问题的准确率大概 70%。第二个月还是 70%。第三个月，员工发现问同样的问题，得到的答案一模一样——系统完全没有从实际使用中学到任何东西。

“它就是个会说话的自动化脚本。”

这句话戳中了一个很多人不愿承认的事实：

今天市面上 90% 的"企业 Agent"，本质上只是给 LLM 套了个聊天框。

Agent 的 Skill 自进化机制：它是如何自己长记性的

How LLM Agents Self-Improve Through Procedural Memory Evolution

Posted on April 18, 2026 | 3 min | 436 words

昨天我用 Agent 处理一个棘手的部署任务。它第一次跑的时候踩了个坑——少了一步 docker login，推送镜像时报错了。Agent 发现问题，自己补上登录步骤，重试后跑通了。

但最让我惊讶的不是它跑通了，而是它默默更新了自己的操作手册。

下一次我再让它做同样的任务时，它直接带上了 docker login，一步到位。

它自己"长记性"了。

这不是魔法，是 Hermes Agent 的 Skill 自进化机制。它把一次性的试错经验，固化成了可复用的程序化记忆。

LLM Agent 上下文压缩算法

How Modern LLM Agents Manage Context Windows Without Losing Track of Your Task

Posted on April 18, 2026 | 6 min | 1084 words

跑了一个长对话 session，agent 帮我重构了一个模块，修了三个 bug，又加了一组测试——最后触发了 context compression，屏幕上显示：“Compressed: 347 -> 18 messages (~89,000 tokens saved, 74%)"。

我好奇它是怎么做到的：压缩了 89K tokens 后，agent 继续干活，居然还记得之前改过的文件路径、失败的测试用例、我说过"不要用 == 要用 is 比较 None"这种细节。

这不是魔术，是一个经过大量 bug 修复迭代出来的上下文压缩算法。我花了两个小时读了 Hermes Agent 的 context_compressor.py，1163 行代码，每一步都有对应的失败案例和修复注释。

Agent = Model + Harness：从 Anthropic Managed Agents 看 Agent 架构演进

Why Agent Architecture is About Stable Interfaces, Not Just Better Models

Posted on April 16, 2026 | 7 min | 1456 words

如果把 Agent 拆解成一个公式，最简单的表达就是：

Agent = Model + Harness

Model 负责思考、推理、决策；Harness 负责循环控制、工具路由、状态管理。过去一年，社区的目光几乎全部聚焦在 Model 上——谁的能力强、谁更便宜、谁上下文更大。但 Anthropic 工程团队最近发布的 Managed Agents 架构文章揭示了一个被忽视的事实：

“Harnesses encode assumptions about what Claude can’t do on its own. Those assumptions go stale as models improve.”

Harness 编码了关于"模型做不到什么"的假设，而这些假设会随着模型能力提升而迅速过时。一个更有趣的推论是：模型越强，Harness 的设计就越重要——因为越强的模型需要越精密的控制结构，才能把能力转化为可靠的产出。

这篇文章从 Anthropic 的工程实践出发，拆解 Agent 架构的核心设计模式，以及"面向未来的 Harness"到底长什么样。

用 LLM 构建程序化知识系统：记忆、技能与进化

从静态 Prompt 到持续生长的数字大脑

Posted on April 14, 2026 | 5 min | 940 words

上周我让 AI Agent 帮我写博客。它干得不错——风格、结构、代码规范都对。因为我之前花了一个下午，让它读完我的 174 篇旧文，把写作风格提炼成了一份可执行的 Skill 文件。

第二天我让它再写一篇，它又对了。第三天，还是对的。到第四天，我发现了一件有意思的事：它自己改了 Skill 文件。它在"反模式"列表里新增了一条——“不要用’随着 AI 的发展’开头”——这是前几次我手动纠正过的，但我从来没有明确要求它把这个规则写进去。

那一刻我意识到，这个 Agent 已经不是在"执行指令"了。它在积累经验。

但紧接着我遇到了下一个问题：它记住了"怎么写文章"，却不记得"上次写了什么"。我让它写一篇关于 Agent 进化的文章，它洋洋洒洒写了 800 行——和三天前那篇重复了 60%。技能在进化，记忆在归零，知识没有沉淀。三条腿，只长了一条。

这个经历让我重新审视了一个问题：我们到底需要怎样的知识架构，才能让 Agent 真正"越用越强"？不是靠更大的上下文窗口，不是靠更贵的模型，而是一套程序化的记忆、知识与技能管理系统。

Karpathy 和社区最近的两个项目——让 Agent 一晚自主迭代 100 次实验的 autoresearch，和把任意文件夹变成可查询知识图谱的 graphify（25k+ stars）——也在指向同一个方向。

从泛化到进化：AI Agent 的下一站

泛化是空间维度的适应能力，进化是时间维度的适应能力

Posted on April 11, 2026 | 5 min | 883 words

前几天跟一个做 Agent 平台的朋友聊天，他说了一句让我印象很深的话：“我们花了半年调 prompt，好不容易让 Agent 在电商客服场景跑到了 90 分。结果客户说要扩到金融场景，我们一测——40 分都不到。”

我问他打算怎么办。

他苦笑：“重新调呗。再花半年。”

这个对话浓缩了当前 AI Agent 面临的最核心矛盾：我们造出了能力惊人但本质上是"静态"的系统。它在训练过的分布上表现惊艳，换个分布就翻车；它部署的那一刻就被冻结，遇到新场景只能等人类手动干预、重新训练。

这让我开始思考两个看似不同、实则紧密相连的问题：泛化（Generalization） 和 进化（Evolution）。

[Read More]

AI AI-agents LLM self-evolving 泛化进化 AGI

AI Native 流程的一头一尾：用户问题理解与自动验证

VOC 自动解决流程中，最难也最关键的两个环节

Posted on April 9, 2026 | 5 min | 1036 words

之前写过一篇用 AI 把 VOC 变成自动化流水线，讲的是整条流水线的架构——采集、分析、路由、执行。反馈不错，但也有读者指出一个关键问题：中间的部分（分类、路由）其实相对好做，真正难的是一头一尾。

“头"是用户问题理解——用户说"页面打不开”，你能不能自动搞清楚是哪个页面、什么场景、能不能复现、根因是什么？

“尾"是自动验证——修完 bug 之后，你能不能自动生成测试用例来证明"确实修好了，而且没有搞坏别的东西”？

这两个环节恰好是 AI Native 流程区别于传统自动化的核心：传统自动化靠规则，处理的是确定性问题；AI Native 靠理解和推理，处理的是模糊性问题。这篇文章就把这一头一尾拆开讲透。

[Read More]

AI AI-agents VOC 测试 LLM 自动化