Llm-Agent

用完备的 Harness 工程，在钉钉上实现 AI 原生协同工作流

The 7-component engineering infrastructure that turns a smart LLM into a reliable business tool

Posted on July 13, 2026 | 4 min | 793 words

从只有大模型到完备 Harness：7 个组件缺一不可

上周我让 Agent 帮我写了一篇博客。

它从我的 wiki 里读了 5 篇历史文章做去重分析，生成初稿后自己跑了一轮对抗性评审打了 18 分，然后用 Gemini 生了一张配图、resize 到 1360px 以下、压缩成 948KB 的 PNG，再跑了一遍中文排版修复，最后 commit 推到 GitHub，等 CI 构建完成后自己验证了上线 URL。

整个过程我做了三件事：选了一个标题方向，补了两处内容，说了三次「发布」。

这套流水线跑了 4 篇博客（#290 到 #293），每篇都是这个流程。它不是 demo，是真实的生产管线。

但我回头看这套东西的时候，发现一个问题： 我搭出来的不是一个 Agent，是一个 Harness。

让钉钉机器人自己开发自己：当 Coding Agent 看见完整消息流

When a Coding Agent sees the full message flow, DingTalk becomes a self-hosting test harness

Posted on July 9, 2026 | 3 min | 561 words

上周三晚上，我躺在沙发上刷手机。钉钉里我那个写代码的机器人卡在一个 question 上——它问我要发到哪个群，我没看见。第二天早上才发现，会话已经卡死了一整夜。

我没起身，随手在钉钉单聊里给它发了句：「给 event-watcher 加个超时自动取消，60 秒没答就 reject。」

十分钟后，机器人改完代码、跑完语法检查、重启了它自己、把改动 commit 推到了 GitHub。我在钉钉里收到一条回执：「✅ 已重启，能力：question 超时自动取消。」

它刚刚修好的，正是那个卡了它一整夜的 Bug。整个过程我没打开电脑。 机器人在钉钉上开发了它自己。

自动优化 Agent 的执行轨迹

Trajectory Optimization and Skill Distillation for AI Agents

Posted on June 9, 2026 | 5 min | 965 words

上个月有人问我一个问题：「我已经有 LLM-as-Judge 做 eval 了，能不能用它来自动优化 Agent 的执行路径？在不降质量的前提下，找到最省钱的轨迹，然后让 Agent 记住？」

这个问题的答案值得展开。答案是能，而且这可能是当前 Agent 优化里最值得投入的方向。但大多数团队理解错了「优化」的对象。

给 Web Agent 一个 Terminal 就够了

The Harness Should Disappear

Posted on June 7, 2026 | 2 min | 392 words

上周我写了一篇 LLM 自动化 vs RPA：省的不是智能，是编排成本，提了一个「探索-编译-执行」的三层架构——LLM 先探索网页、找到可行路径，然后编译成代码，后续直接执行。

写完没几天，微软研究院发了 Webwright，几乎就是这套思路的学术验证。但让我意外的不是它验证了三层架构，而是另一个发现： harness 本身可以薄到离谱。

整个系统只有 ~1000 行代码，三个模块，没有 multi-agent 编排，没有复杂的动作空间设计。它给模型的东西只有一个——terminal。

从 SQL 生成器到数据工程范式转移：Anthropic 自助数据分析启示录

Why Anthropic's Self-Service Analytics Proves Data Engineering Must Evolve for Agents

Posted on June 5, 2026 | 4 min | 681 words

上周，一个同事在悟空里问了一句「上周日活多少」，Agent 自信地返回了一个数字：精确到个位，格式漂亮，SQL 语法无懈可击。唯一的问题是——它用了一张已经废弃 3 个月的旧表。

没有人发现这个错误。因为数字「看起来对」。

这就是 Anthropic 在官方博客《How Anthropic Enables Self-Service Data Analytics with Claude》里描述的核心困境。我第一反应是「这不就是自然语言查数吗」。但读完全文，我发现自己错了——Anthropic 真正在做的，不是让业务人员用中文写 SQL，而是把整个数据工程的范式从「给人看」重构为「给 Agent 看」。

Anthropic 原文里最刺痛我的一句话是：

The initial elation of liberation from ad-hoc requests turns into dread with the realization that this setup separates stakeholders from the underlying infrastructure, documentation, and expertise that previously steered them toward carefully curated datasets.

翻译成大白话：你刚把 Claude 接上数据仓库，业务方欢呼终于不用找你写 SQL 了；但很快你会发现，他们问出来的问题越来越离谱，因为 Agent 失去了原来数据团队通过文档、培训、代码审查建立的「认知护栏」。

这不是技术问题，是 数据产品的用户变了。

LLM 自动化 vs RPA：省的不是智能，是编排成本

Explore Once, Compile to Code, Execute Forever

Posted on June 3, 2026 | 3 min | 473 words

上周五晚上，一个做 RPA 的朋友跟我吐槽：他们给某电商平台搭的自动化流程，上线三个月，页面改版了两次，每次改版都要派人重新录制操作、调整元素定位、测试回归。「甲方觉得 AI 这么火，为什么你们的机器人还是这么脆弱？」

这个问题问得好，但答案可能不是他期望的。

脆弱的不是 AI，是 每次页面变化都要人工重新编排 这个工作模式。影刀、UiPath 这类传统 RPA 工具，本质上是人工录制 + 元素定位的自动化回放。它的优势是稳定——录制好的流程跑一千次都不会出错。它的劣势也很明显——页面改了，流程就废了，而修复的成本和第一次录制一样高。

大模型的 Computer-Use 和 Browser-Use 走了一条完全不同的路，但大多数人只看到了它「贵」和「慢」的一面，没看到它真正值钱的地方。

用 Goal 取代 Graph：多智能体框架的真正方向

Give agents a playground, not a blank canvas

Posted on May 30, 2026 | 3 min | 590 words

2023 年 3 月，一个名叫 Toran Bruce Richards 的开发者发布了 AutoGPT，两周内 GitHub Star 突破 10 万。他在 README 里写道：「给 AI 一个目标，它自己规划、自己执行、自己反思。」不需要你画流程图，不需要定义任务依赖——完全自治。

三个月后，Richards 的 GitHub Issues 页面变成了大型翻车现场。一个被反复引用的案例：用户让 AutoGPT「研究人工智能的历史」，Agent 搜索了 10 篇文章，保存，然后又搜索了 8 篇，再保存，然后检查自己保存的文件，然后重新搜索……无限循环，API 费用烧了几十美元，一事无成。AutoGPT 的 GitHub 仓库里记录了超过 200 个类似的 infinite loop issue。

AutoGPT 的失败让行业得出了一个看似正确的结论： Agent 需要预定义的执行图。于是 LangGraph 成了 2026 年最受欢迎的 Agent 框架——62% 的开发者选择了它，正是因为它提供了精细的状态机控制和可预测的执行路径。

但我跟很多在用 LangGraph 的团队聊过，他们私下都在抱怨同一件事： 画图太痛苦了。 每增加一个能力，就要重新设计图的拓扑结构；每遇到一个边界情况，就要加一条边和一个条件分支。开发者的时间，一半花在写 Agent 逻辑，另一半花在维护那张 DAG。

这就引出了一个真正的问题：DAG 是答案吗？还是我们在 AutoGPT 的阴影下过度矫正了？

企业知识库新范式：从一亿预算到人在回路

The paradigm shift from billion-yuan knowledge graphs to human-in-the-loop LLM orchestration

Posted on May 8, 2026 | 3 min | 621 words

上周和一位创业者吃饭，他刚帮一家大型企业做完知识图谱项目的评估。结论让人倒吸一口凉气：要达到替代中级岗位能力的水平，算上数据采集、清洗、标注、图谱构建和持续维护，预算需要一个亿。

企业听完直接搁置了。

这不是个例。过去三年，我见过不下十个类似的项目——企业想做知识库，供应商画了一个「知识图谱+智能问答」的大饼，然后企业发现投入产出比根本算不过账。

但今年情况变了。模型能力的跃迁正在催生一个新范式：不再靠人工标注堆数据，而是让 LLM 做编排，结合企业搜索，人做优化调整和确认。

知识整理的起点也不再是宏大的「企业知识图谱」，而是每个人手边的 Journal——每日工作日记。通过钉钉这样的组织连接工具，个人知识可以自然地流转、沉淀为企业知识。

构建 Agent 的动态路由决策系统：千人千面的任务执行引擎

Dynamic Routing Decision System for AI Agents

Posted on May 8, 2026 | 10 min | 2058 words

团队里的小王和小李都在用同一个 AI Agent 平台。

小王输入：「帮我总结一下今天群里的讨论。」

Agent 调用了 fast/small 模型做意图识别，然后用 medium 模型读取了 200 条消息，生成了摘要。耗时 3 秒，花费 0.02 元。

小李输入了完全相同的指令。

Agent 却调用了 large/reasoning 模型，不仅做了摘要，还自动关联了小李上周的项目文档，识别出了三个待办事项，并推送到了他的日历。耗时 12 秒，花费 0.15 元。

同样的输入，完全不同的执行路径。

这不是 bug，而是一个成熟的 Agent 系统应该具备的能力——根据用户画像、历史行为、任务上下文，动态决策每一步该用什么模型、什么工具、注入多少上下文、以什么并发度执行。

当你的 Agent 只有 100 个用户时，这些问题还不明显。你可以手动调几个规则，给 VIP 用户分配更好的模型，给普通用户限流。靠人肉运维，系统也能跑。

但当用户量从 100 涨到 10 万、100 万，当模型供应商从 1 家变成 10 家，当工具调用从几个 API 扩展到上百个——靠人写规则来调度，系统会直接崩溃。

不是因为规则写不出来，而是因为规则的组合空间是指数级的：

7 种任务类型 × 5 个复杂度等级 × 10 个模型 × 4 种用户画像 × 3 种上下文策略 = 4,200 种路由组合
这还只是单节点决策。如果任务被分解为 3-5 个子节点，每个节点独立路由，组合数直接爆炸到 百万级

没有人能手动维护百万级的路由规则表。

大多数 Agent 框架把执行路径写死在代码里：先调用 A 模型，再调用 B 工具，最后返回结果。这在 demo 阶段没问题，但一旦面向规模化用户，就会暴露三个致命问题：

成本失控——所有用户都用最强模型，简单任务也在烧钱，规模化后月账单直接六位数
体验一刀切——新手和专家拿到相同的结果，没有人觉得「懂我」，留存率上不去
无法进化——系统上线后不会从用户反馈中学习，规则越写越多，越用越僵化

这篇文章，我们来拆解如何构建一个动态路由决策系统（Dynamic Routing Decision System, DRDS）——一套端到端的自进化引擎，让 Agent 的执行路径真正做到千人千面，并且在规模化下持续学习、自动优化。

核心观点：自进化不是 Agent 的「加分项」，而是规模化后的「必选项」。

用 LLM Wiki + Obsidian 构建个人 AI 知识图谱

Automated knowledge graph with Hermes Agent and Obsidian

Posted on May 4, 2026 | 6 min | 1066 words

去年年底，我做了一个实验：把过去十年写的 190 多篇博客、Obsidian 里的读书笔记、还有悟空 Agent 的实践记录，全部扔给 Hermes Agent，让它按照 Karpathy 的 LLM Wiki 模式自动整理。

三天后，我打开 Obsidian 的 Graph View，看到了一个由 50 多个节点互相连接的知识网络 — 不是文件归档，而是一个真正的知识图谱。Agent 自动提取了实体和概念，建立了双向链接，甚至发现了我自己都没意识到的关联：[[compression-as-intelligence]] 和 [[agent-memory]] 之间有一条隐含的逻辑链，我自己写了三年都没发现。

那一刻我意识到：个人知识管理的瓶颈不是工具，而是"碎片到结构"的转换成本。 这篇文章，我把整个系统的架构、自动化流程和实际用法完整拆解出来。