管理者的第一个 Agent Skill:Loop 工程实现每周重要事项进展汇总

Your first Agent Skill as a manager -- why loop engineering beats manual progress tracking

周五下午 4 点。你打开钉钉,你的 D 群里「本周的重点事项」消息已经发了 24 小时。16 位负责人被 @,每个人的进展回复散落在三个地方:有人私聊你说了三段话,有人在群里回了一个 emoji,还有人到现在一个字没发。

你要整理的,是一份让所有人都看得懂、能 action 的结构化进度报告。

手动做这件事需要 2-3 小时(经验估算)。你打开 16 个单聊窗口 + 群聊消息列表,翻来翻去。做得再仔细,也跑不掉三个 bias: recency bias ——最后看到的记得最清, salience bias ——写了一大段的人得到最多篇幅,写了三个字的人被一笔带过。 survivorship bias ——没回复的人直接消失在你的视野里,而不是被明确标记。

我手动做了这件事好几个月。然后写了一个 Agent Skill 文件——不到 200 行的 Markdown,把你的工作流程像岗位说明书一样写清楚。跑起来之后的效果不是「更快了」,而是 总结质量比手动好:每条来源可溯源、16 人全覆盖、没回复的标 ⚠️ 而不是消失。从 12 人扩到 16 人时,只改了 4 行映射表。

Loop Engineering 管理者的 Agent Skill

这篇文章讲的就是这个案例——以及如何把 Loop Engineering(让 Agent 自主跑到终点的工程方法)从写代码的场景,搬到管理协调的场景。

这个工程能落地,最关键的工具是 钉钉 DWS(DingTalk Workspace CLI)。DWS 是 Agent 与钉钉的统一接口层,它的设计让钉钉对 Agent 友好、对开发者友好。无论你使用哪款 Agent——OpenClaw、Hermes、OpenCode、悟空、MuleRun、WorkBuddy——都能通过 DWS 应用这套 AI 驱动的管理方法。Agent 是 fungible 的,接口层才是杠杆。

对比维度手动汇总Agent Skill
耗时2-3 小时(经验估算)Agent 运行约 10 分钟 + 人工审阅约 5 分钟(基于实际运行经验)
覆盖率高概率遗漏 1-3 人16 人全覆盖,未回复显式标 ⚠️
可溯源性凭记忆,无法定位原文每条标注「单聊 MM-DD HH:MM」来源
扩展性增加 4 人 = 多翻 4 个窗口改 4 行映射表
一致性受情绪/疲劳影响相同输入 ≈ 相同输出
[Read More]

Loop Engineering:AI Agent 工程的第五层

From Prompt to Goal — the human defines the finish line, the agent finds the path

4 月底,OpenAI 发布了 Codex CLI 0.128.0。更新日志里藏着一句话:「Added persisted /goal workflows with app-server APIs, model tools, runtime continuation, and TUI controls.」几乎同一时间,Claude Code 也上线了 /goal 指令。Greg Brockman 在推特上写了一句:「codex now has a built-in Ralph loop++.」

大多数人把这条更新当作又一个 feature flag 滑过去了。但如果你仔细拆解 /goal 的设计,会发现它代表的不是「又一个功能」,而是 AI Agent 工程的一次范式跃迁。

Loop Engineering 五层演进

[Read More]

VOC 闭环:Windows 用户打不开悟空,AI 怎么用 4 小时从报错到发版

From VOC Signal to Code Fix — Building AI-Native Enterprise SOP

知识管理有四个值得做的企业场景,其中「企业 SOP / 最佳实践沉淀」看起来最不起眼——知识静态、更新慢、容易退化成高级搜索、用户日活偏弱。

但如果你换一个角度看,SOP 沉淀的真正价值不是「把经验存起来」,而是 把经验变成可执行的系统行为

这篇文章用一个完整案例来说明:一位 Windows 用户打开悟空发起任务,悟空报错「任务执行环境准备失败」,到 AI 定位根因、修复代码、验证、发布,全程 4 小时。每个环节 AI 做什么、人做什么、知识如何在这个过程中自然沉淀。

[Read More]

为 Agent 设计极限挑战任务:AI 时代 Agent 架构师的新价值

Designing Extreme Challenge Tasks for Agents: The New Value of AI Architects

当 AI Agent 能够自主编写代码、调用工具、完成任务时,架构师的价值在哪里?

答案可能出乎意料: 架构师的核心竞争力,正在从「设计系统」转向「设计挑战」

在 AI 时代,最有价值的架构师不是那个能写出最复杂 Prompt 的人,而是那个能设计出最刁钻测试用例、最极端边界场景、最能暴露系统脆弱性的「极限挑战设计师」。

这就像 SRE 领域的混沌工程(Chaos Engineering)——最有价值的不是搭建一个完美的系统,而是设计出一套能持续发现系统弱点的实验。

[Read More]

悟空技巧七:工具协同,让 AI 从「聊天」走向「行动」

Wukong Tip #7: Tool-Augmented Prompting for Actionable Workflows

你让悟空对比两个刚发布不久的开源框架,它自信满满地输出了三千字分析,但你一查官网,发现核心特性全是幻觉;你让它分析一份 CSV 销售数据,它用纯文本「心算」了一堆增长率,结果和你用 Excel 拉出来的数字对不上;你让它帮你建一个钉钉待办,它给你写了一段完美的 API 调用建议,但就是没真正执行。

不是 AI 不够聪明,是你只给了它「大脑」,没给它「双手」。

在前面的六篇文章中,我们解决了需求澄清、流程拆解、交付标准、风格对齐、迭代反馈和上下文稳定性。但这些技巧都聚焦在纯文本交互层面。

当任务涉及实时信息、精确计算、外部系统操作时,纯 LLM 推理会遇到物理天花板:知识截止、数学弱项、无执行环境。此时,继续用「聊天」模式硬扛,只会得到看似专业实则不可用的结果。

今天,我们探讨技巧七:如何通过「工具协同」,显式调度 AI 的外部能力,让协作从「对话建议」升级为「端到端执行」。

[Read More]

Agent = Model + Harness:从 Anthropic Managed Agents 看 Agent 架构演进

Why Agent Architecture is About Stable Interfaces, Not Just Better Models

如果把 Agent 拆解成一个公式,最简单的表达就是:

Agent = Model + Harness

Model 负责思考、推理、决策;Harness 负责循环控制、工具路由、状态管理。过去一年,社区的目光几乎全部聚焦在 Model 上——谁的能力强、谁更便宜、谁上下文更大。但 Anthropic 工程团队最近发布的 Managed Agents 架构文章揭示了一个被忽视的事实:

“Harnesses encode assumptions about what Claude can’t do on its own. Those assumptions go stale as models improve.”

Harness 编码了关于"模型做不到什么"的假设,而这些假设会随着模型能力提升而迅速过时。一个更有趣的推论是:模型越强,Harness 的设计就越重要——因为越强的模型需要越精密的控制结构,才能把能力转化为可靠的产出。

这篇文章从 Anthropic 的工程实践出发,拆解 Agent 架构的核心设计模式,以及"面向未来的 Harness"到底长什么样。

[Read More]

把组织当成产品来打造:AI 原生组织的 MVP 设计

组织不是「管」出来的,是「设计」出来的——以钉钉团队为例,拆解组织 MVP 的第一个可用版本

去年底,钉钉内部发生了一件事。一个做智能客服的产品经理发现,他给企业客户做的 AI 解决方案,从需求确认到方案交付平均要 14 天。他拉了一下链路:客户提需求给销售(1 天)→ 销售转给解决方案团队(等 2 天)→ 解决方案写 PRD 转给产品(等 1 天)→ 产品评审排期(等 3 天)→ 技术实现(5 天)→ 交付验收(2 天)。14 天里,真正在"干活"的时间不到 5 天,剩下 9 天全是等待——等人、等审批、等排期、等信息同步。

他跑去找他的主管说:“我们给客户做 AI 提效工具,但我们自己的组织效率,比客户还低。”

这句话刺痛了人。但更刺痛的是——这不是钉钉一家的问题,这是几乎所有想做 AI 转型的公司都会撞上的墙。不是不知道终局应该长什么样,而是不知道第一个可用版本怎么做——像做产品一样,先跑起来,再迭代。

[Read More]

从泛化到进化:AI Agent 的下一站

泛化是空间维度的适应能力,进化是时间维度的适应能力

前几天跟一个做 Agent 平台的朋友聊天,他说了一句让我印象很深的话:“我们花了半年调 prompt,好不容易让 Agent 在电商客服场景跑到了 90 分。结果客户说要扩到金融场景,我们一测——40 分都不到。”

我问他打算怎么办。

他苦笑:“重新调呗。再花半年。”

这个对话浓缩了当前 AI Agent 面临的最核心矛盾:我们造出了能力惊人但本质上是"静态"的系统。它在训练过的分布上表现惊艳,换个分布就翻车;它部署的那一刻就被冻结,遇到新场景只能等人类手动干预、重新训练。

这让我开始思考两个看似不同、实则紧密相连的问题:泛化(Generalization)进化(Evolution)

[Read More]

让 AI 自己写 Skill:可进化 Agent 的设计原理与最佳实践

Why procedural memory beats static prompts, and how to build skills that improve over time.

今天下午我做了一件听起来有点奇怪的事——让 AI 读完了我自己的 174 篇博客,提炼出写作风格,写成了一份可执行的配置文件,然后告诉它:“以后每次写文章就按这个标准来,写完还要自己更新它。”

它真的照做了。不仅生成了一份包含六大风格特征、两种文章模板、四个薄弱环节和改进路线图的 Skill 文档,还自动附加了一条"进化协议"——每次使用完毕后检查是否需要更新。

这不是 prompt engineering,也不是 RAG。这是给 Agent 建程序性记忆(Procedural Memory)。

很多人给 AI 配了知识库、写了几百行 system prompt,但用起来总觉得"不长进"。问题不在于模型,而在于记忆的结构。静态 prompt 是一次性指令,而可进化的 Skill 是活的——它会随着使用自动迭代、越用越准、越用越像你自己。

[Read More]

AI Native 流程的一头一尾:用户问题理解与自动验证

VOC 自动解决流程中,最难也最关键的两个环节

之前写过一篇用 AI 把 VOC 变成自动化流水线,讲的是整条流水线的架构——采集、分析、路由、执行。反馈不错,但也有读者指出一个关键问题:中间的部分(分类、路由)其实相对好做,真正难的是一头一尾。

“头"是用户问题理解——用户说"页面打不开”,你能不能自动搞清楚是哪个页面、什么场景、能不能复现、根因是什么?

“尾"是自动验证——修完 bug 之后,你能不能自动生成测试用例来证明"确实修好了,而且没有搞坏别的东西”?

这两个环节恰好是 AI Native 流程区别于传统自动化的核心:传统自动化靠规则,处理的是确定性问题;AI Native 靠理解和推理,处理的是模糊性问题。这篇文章就把这一头一尾拆开讲透。

[Read More]