AI-Agents

管理者的第一个 Agent Skill：Loop 工程实现每周重要事项进展汇总

Your first Agent Skill as a manager -- why loop engineering beats manual progress tracking

Posted on July 2, 2026 | 5 min | 1033 words

周五下午 4 点。你打开钉钉，你的 D 群里「本周的重点事项」消息已经发了 24 小时。16 位负责人被 @，每个人的进展回复散落在三个地方：有人私聊你说了三段话，有人在群里回了一个 emoji，还有人到现在一个字没发。

你要整理的，是一份让所有人都看得懂、能 action 的结构化进度报告。

手动做这件事需要 2-3 小时（经验估算）。你打开 16 个单聊窗口 + 群聊消息列表，翻来翻去。做得再仔细，也跑不掉三个 bias： recency bias ——最后看到的记得最清， salience bias ——写了一大段的人得到最多篇幅，写了三个字的人被一笔带过。 survivorship bias ——没回复的人直接消失在你的视野里，而不是被明确标记。

我手动做了这件事好几个月。然后写了一个 Agent Skill 文件——不到 200 行的 Markdown，把你的工作流程像岗位说明书一样写清楚。跑起来之后的效果不是「更快了」，而是 总结质量比手动好：每条来源可溯源、16 人全覆盖、没回复的标 ⚠️ 而不是消失。从 12 人扩到 16 人时，只改了 4 行映射表。

这篇文章讲的就是这个案例——以及如何把 Loop Engineering（让 Agent 自主跑到终点的工程方法）从写代码的场景，搬到管理协调的场景。

这个工程能落地，最关键的工具是钉钉 DWS（DingTalk Workspace CLI）。DWS 是 Agent 与钉钉的统一接口层，它的设计让钉钉对 Agent 友好、对开发者友好。无论你使用哪款 Agent——OpenClaw、Hermes、OpenCode、悟空、MuleRun、WorkBuddy——都能通过 DWS 应用这套 AI 驱动的管理方法。Agent 是 fungible 的，接口层才是杠杆。

对比维度	手动汇总	Agent Skill
耗时	2-3 小时（经验估算）	Agent 运行约 10 分钟 + 人工审阅约 5 分钟（基于实际运行经验）
覆盖率	高概率遗漏 1-3 人	16 人全覆盖，未回复显式标 ⚠️
可溯源性	凭记忆，无法定位原文	每条标注「单聊 MM-DD HH:MM」来源
扩展性	增加 4 人 = 多翻 4 个窗口	改 4 行映射表
一致性	受情绪/疲劳影响	相同输入 ≈ 相同输出

Loop Engineering：AI Agent 工程的第五层

From Prompt to Goal — the human defines the finish line, the agent finds the path

Posted on June 10, 2026 | 4 min | 739 words

4 月底，OpenAI 发布了 Codex CLI 0.128.0。更新日志里藏着一句话：「Added persisted /goal workflows with app-server APIs, model tools, runtime continuation, and TUI controls.」几乎同一时间，Claude Code 也上线了 /goal 指令。Greg Brockman 在推特上写了一句：「codex now has a built-in Ralph loop++.」

大多数人把这条更新当作又一个 feature flag 滑过去了。但如果你仔细拆解 /goal 的设计，会发现它代表的不是「又一个功能」，而是 AI Agent 工程的一次范式跃迁。

VOC 闭环：Windows 用户打不开悟空，AI 怎么用 4 小时从报错到发版

From VOC Signal to Code Fix — Building AI-Native Enterprise SOP

Posted on May 24, 2026 | 8 min | 1666 words

知识管理有四个值得做的企业场景，其中「企业 SOP / 最佳实践沉淀」看起来最不起眼——知识静态、更新慢、容易退化成高级搜索、用户日活偏弱。

但如果你换一个角度看，SOP 沉淀的真正价值不是「把经验存起来」，而是 把经验变成可执行的系统行为。

这篇文章用一个完整案例来说明：一位 Windows 用户打开悟空发起任务，悟空报错「任务执行环境准备失败」，到 AI 定位根因、修复代码、验证、发布，全程 4 小时。每个环节 AI 做什么、人做什么、知识如何在这个过程中自然沉淀。

为 Agent 设计极限挑战任务：AI 时代 Agent 架构师的新价值

Designing Extreme Challenge Tasks for Agents: The New Value of AI Architects

Posted on May 20, 2026 | 8 min | 1681 words

当 AI Agent 能够自主编写代码、调用工具、完成任务时，架构师的价值在哪里？

答案可能出乎意料： 架构师的核心竞争力，正在从「设计系统」转向「设计挑战」。

在 AI 时代，最有价值的架构师不是那个能写出最复杂 Prompt 的人，而是那个能设计出最刁钻测试用例、最极端边界场景、最能暴露系统脆弱性的「极限挑战设计师」。

这就像 SRE 领域的混沌工程（Chaos Engineering）——最有价值的不是搭建一个完美的系统，而是设计出一套能持续发现系统弱点的实验。

悟空技巧七：工具协同，让 AI 从「聊天」走向「行动」

Wukong Tip #7: Tool-Augmented Prompting for Actionable Workflows

Posted on May 18, 2026 | 2 min | 416 words

你让悟空对比两个刚发布不久的开源框架，它自信满满地输出了三千字分析，但你一查官网，发现核心特性全是幻觉；你让它分析一份 CSV 销售数据，它用纯文本「心算」了一堆增长率，结果和你用 Excel 拉出来的数字对不上；你让它帮你建一个钉钉待办，它给你写了一段完美的 API 调用建议，但就是没真正执行。

不是 AI 不够聪明，是你只给了它「大脑」，没给它「双手」。

在前面的六篇文章中，我们解决了需求澄清、流程拆解、交付标准、风格对齐、迭代反馈和上下文稳定性。但这些技巧都聚焦在纯文本交互层面。

当任务涉及实时信息、精确计算、外部系统操作时，纯 LLM 推理会遇到物理天花板：知识截止、数学弱项、无执行环境。此时，继续用「聊天」模式硬扛，只会得到看似专业实则不可用的结果。

今天，我们探讨技巧七：如何通过「工具协同」，显式调度 AI 的外部能力，让协作从「对话建议」升级为「端到端执行」。

Agent = Model + Harness：从 Anthropic Managed Agents 看 Agent 架构演进

Why Agent Architecture is About Stable Interfaces, Not Just Better Models

Posted on April 16, 2026 | 7 min | 1456 words

如果把 Agent 拆解成一个公式，最简单的表达就是：

Agent = Model + Harness

Model 负责思考、推理、决策；Harness 负责循环控制、工具路由、状态管理。过去一年，社区的目光几乎全部聚焦在 Model 上——谁的能力强、谁更便宜、谁上下文更大。但 Anthropic 工程团队最近发布的 Managed Agents 架构文章揭示了一个被忽视的事实：

“Harnesses encode assumptions about what Claude can’t do on its own. Those assumptions go stale as models improve.”

Harness 编码了关于"模型做不到什么"的假设，而这些假设会随着模型能力提升而迅速过时。一个更有趣的推论是：模型越强，Harness 的设计就越重要——因为越强的模型需要越精密的控制结构，才能把能力转化为可靠的产出。

这篇文章从 Anthropic 的工程实践出发，拆解 Agent 架构的核心设计模式，以及"面向未来的 Harness"到底长什么样。

把组织当成产品来打造：AI 原生组织的 MVP 设计

组织不是「管」出来的，是「设计」出来的——以钉钉团队为例，拆解组织 MVP 的第一个可用版本

Posted on April 12, 2026 | 2 min | 406 words

去年底，钉钉内部发生了一件事。一个做智能客服的产品经理发现，他给企业客户做的 AI 解决方案，从需求确认到方案交付平均要 14 天。他拉了一下链路：客户提需求给销售（1 天）→ 销售转给解决方案团队（等 2 天）→ 解决方案写 PRD 转给产品（等 1 天）→ 产品评审排期（等 3 天）→ 技术实现（5 天）→ 交付验收（2 天）。14 天里，真正在"干活"的时间不到 5 天，剩下 9 天全是等待——等人、等审批、等排期、等信息同步。

他跑去找他的主管说：“我们给客户做 AI 提效工具，但我们自己的组织效率，比客户还低。”

这句话刺痛了人。但更刺痛的是——这不是钉钉一家的问题，这是几乎所有想做 AI 转型的公司都会撞上的墙。不是不知道终局应该长什么样，而是不知道第一个可用版本怎么做——像做产品一样，先跑起来，再迭代。

从泛化到进化：AI Agent 的下一站

泛化是空间维度的适应能力，进化是时间维度的适应能力

Posted on April 11, 2026 | 5 min | 883 words

前几天跟一个做 Agent 平台的朋友聊天，他说了一句让我印象很深的话：“我们花了半年调 prompt，好不容易让 Agent 在电商客服场景跑到了 90 分。结果客户说要扩到金融场景，我们一测——40 分都不到。”

我问他打算怎么办。

他苦笑：“重新调呗。再花半年。”

这个对话浓缩了当前 AI Agent 面临的最核心矛盾：我们造出了能力惊人但本质上是"静态"的系统。它在训练过的分布上表现惊艳，换个分布就翻车；它部署的那一刻就被冻结，遇到新场景只能等人类手动干预、重新训练。

这让我开始思考两个看似不同、实则紧密相连的问题：泛化（Generalization） 和 进化（Evolution）。

[Read More]

AI AI-agents LLM self-evolving 泛化进化 AGI

让 AI 自己写 Skill：可进化 Agent 的设计原理与最佳实践

Why procedural memory beats static prompts, and how to build skills that improve over time.

Posted on April 10, 2026 | 11 min | 2166 words

今天下午我做了一件听起来有点奇怪的事——让 AI 读完了我自己的 174 篇博客，提炼出写作风格，写成了一份可执行的配置文件，然后告诉它：“以后每次写文章就按这个标准来，写完还要自己更新它。”

它真的照做了。不仅生成了一份包含六大风格特征、两种文章模板、四个薄弱环节和改进路线图的 Skill 文档，还自动附加了一条"进化协议"——每次使用完毕后检查是否需要更新。

这不是 prompt engineering，也不是 RAG。这是给 Agent 建程序性记忆（Procedural Memory）。

很多人给 AI 配了知识库、写了几百行 system prompt，但用起来总觉得"不长进"。问题不在于模型，而在于记忆的结构。静态 prompt 是一次性指令，而可进化的 Skill 是活的——它会随着使用自动迭代、越用越准、越用越像你自己。

AI Native 流程的一头一尾：用户问题理解与自动验证

VOC 自动解决流程中，最难也最关键的两个环节

Posted on April 9, 2026 | 5 min | 1036 words

之前写过一篇用 AI 把 VOC 变成自动化流水线，讲的是整条流水线的架构——采集、分析、路由、执行。反馈不错，但也有读者指出一个关键问题：中间的部分（分类、路由）其实相对好做，真正难的是一头一尾。

“头"是用户问题理解——用户说"页面打不开”，你能不能自动搞清楚是哪个页面、什么场景、能不能复现、根因是什么？

“尾"是自动验证——修完 bug 之后，你能不能自动生成测试用例来证明"确实修好了，而且没有搞坏别的东西”？

这两个环节恰好是 AI Native 流程区别于传统自动化的核心：传统自动化靠规则，处理的是确定性问题；AI Native 靠理解和推理，处理的是模糊性问题。这篇文章就把这一头一尾拆开讲透。

[Read More]

AI AI-agents VOC 测试 LLM 自动化