悟空技巧六:上下文管理,用「状态控制」避免长对话退化

Wukong Tip #6: Context Management for Long-Session Stability

你是否经历过这样的崩溃时刻:

在同一个悟空对话窗口里,你们已经并肩作战了 30 轮。前 10 轮它聪明绝顶,精准理解你的架构约束;到了第 20 轮,它开始偶尔犯低级错误,把已经否决的方案重新提出来;到了第 30 轮,它彻底「失忆」,遗忘了最早约定的错误处理规范,甚至开始输出车轱辘话和幻觉。

你以为是 AI 变笨了,或者是模型抽风了。

其实不是 AI 能力下降,而是它的「内存」爆了。

在前面的五篇文章中,我们构建了从 需求澄清分步执行交付物定义示例对齐迭代优化 的完整单次任务工作流。

但实际工作中,我们经常在同一个会话里连续处理多阶段任务。此时,一个隐蔽但致命的现象会出现:上下文污染与注意力衰减。

今天,我们探讨技巧六:如何通过「上下文管理」,像管理内存一样管理对话状态,确保长周期协作的稳定性。

[Read More]

LLM Agent 上下文压缩算法

How Modern LLM Agents Manage Context Windows Without Losing Track of Your Task

跑了一个长对话 session,agent 帮我重构了一个模块,修了三个 bug,又加了一组测试——最后触发了 context compression,屏幕上显示:“Compressed: 347 -> 18 messages (~89,000 tokens saved, 74%)"。

我好奇它是怎么做到的:压缩了 89K tokens 后,agent 继续干活,居然还记得之前改过的文件路径、失败的测试用例、我说过"不要用 == 要用 is 比较 None"这种细节。

这不是魔术,是一个经过大量 bug 修复迭代出来的上下文压缩算法。我花了两个小时读了 Hermes Agent 的 context_compressor.py,1163 行代码,每一步都有对应的失败案例和修复注释。

[Read More]