System-Design

AI Agent 定时任务的自动优化

Telemetry-driven cron optimization for AI agent runtimes

Posted on May 30, 2026 | 8 min | 1656 words

上个月，我发现一个跑了 3 周的定时任务每天都在用 Claude Sonnet 4 做一件极其简单的事——搜索两条关键词、整理成表格、发给我。每次消耗约 8000 token，成本 $0.12。换成 GPT-4o-mini，同样的任务 2000 token 就够，成本 $0.003。

3 周 × 每天 $0.12 = $2.52。换成 mini 只要 $0.06。

这不是模型的问题，也不是调度器的问题——是 调度器和模型选择之间缺了一层。你的 cron 系统知道什么时候该跑这个任务，但完全不知道该用什么模型、多少推理深度来跑。

用 Goal 取代 Graph：多智能体框架的真正方向

Give agents a playground, not a blank canvas

Posted on May 30, 2026 | 3 min | 590 words

2023 年 3 月，一个名叫 Toran Bruce Richards 的开发者发布了 AutoGPT，两周内 GitHub Star 突破 10 万。他在 README 里写道：「给 AI 一个目标，它自己规划、自己执行、自己反思。」不需要你画流程图，不需要定义任务依赖——完全自治。

三个月后，Richards 的 GitHub Issues 页面变成了大型翻车现场。一个被反复引用的案例：用户让 AutoGPT「研究人工智能的历史」，Agent 搜索了 10 篇文章，保存，然后又搜索了 8 篇，再保存，然后检查自己保存的文件，然后重新搜索……无限循环，API 费用烧了几十美元，一事无成。AutoGPT 的 GitHub 仓库里记录了超过 200 个类似的 infinite loop issue。

AutoGPT 的失败让行业得出了一个看似正确的结论： Agent 需要预定义的执行图。于是 LangGraph 成了 2026 年最受欢迎的 Agent 框架——62% 的开发者选择了它，正是因为它提供了精细的状态机控制和可预测的执行路径。

但我跟很多在用 LangGraph 的团队聊过，他们私下都在抱怨同一件事： 画图太痛苦了。 每增加一个能力，就要重新设计图的拓扑结构；每遇到一个边界情况，就要加一条边和一个条件分支。开发者的时间，一半花在写 Agent 逻辑，另一半花在维护那张 DAG。

这就引出了一个真正的问题：DAG 是答案吗？还是我们在 AutoGPT 的阴影下过度矫正了？

你不需要会编程：对话即编程，一个会进化的工作流系统

How Non-Technical Users Build Evolving Programmatic Systems Through Conversation

Posted on May 29, 2026 | 4 min | 724 words

上周五下午 4 点，一个管着 30 人销售团队的区域总监在钉钉里对悟空说了一句话：

「帮我把本周所有客户的跟进记录整理成表格，标记哪些超过 3 天没回访的，然后给对应的销售发个提醒。」

她没有写一行代码。她甚至不知道什么是 API。但 30 秒后，一张 AI 表格建好了，12 条超时记录标红了，12 条 DING 消息已经发到了对应销售的手机上。

这不是 demo，是她每天的工作方式。

SKILL.md 不是文档，是编译器

How a 900-Line Markdown File Turns AI From a Chatbot Into a Content Pipeline

Posted on May 26, 2026 | 5 min | 888 words

「准备写一个 blog，详细讲解这个 skill。」

我对 Agent 说完这句话后，它在 0.5 秒内完成了三件事：加载 900 行 SKILL.md、扫描过去 127 篇博客的标题做交叉引用、按 Planner 模块输出了文章分类和大纲。没有追问「你想写什么角度」，没有问「用什么语气」，没有忘记中文排版要加空格。

AI Agent使用的复利效应：为什么第二步的「无用功」最值得投入

The Compound Interest of Agent Adoption: Why Redundant Work Pays Off Exponentially

Posted on May 16, 2026 | 5 min | 854 words

HashiCorp 的 Mitchell 把自己的 AI 使用历程分成六个阶段。他不是那种用了就觉得好的人，每个阶段都带着怀疑和验证。六步走完后，他得出了一个反直觉的结论：最痛苦、看起来最「无用」的第二步，恰恰是后续一切复利的起点。

大多数人从第一步直接跳到第四步 —— 觉得 AI 好用就开始委托任务。Mitchell 却在第二步花了大量时间做冗余工作：已经手动完成的事，再让 Agent 做一遍。原文说「I literally did the work twice」。目的不是省时间，是建立对 Agent 能力边界的真实认知。

正是这个阶段的「无用功」，让后续每一步都产生了指数级的复利效应。

基础设施比模型更重要：Stripe Minions 给 AI Agent 落地的启示

Why Engineering Infrastructure Matters More Than Model Choice for AI Agents

Posted on May 16, 2026 | 5 min | 905 words

昨晚在电子书上读到一段关于 Stripe Minions 的文字，让我停下来想了很久。

不是因为它用了什么惊艳的模型，而是因为它揭示了一个被大多数人忽略的事实：

Minions 能 work 的首要原因跟 AI 模型本身几乎无关，而是 Stripe 在 LLM 出现之前就为人类工程师建设了多年的基础设施。

完整的代码树、成熟的构建系统、全面的测试覆盖、标准化的开发环境——这些不是为 AI 准备的，是十多年来为人类工程师准备的。AI Agent 到来时，直接继承了这套基础设施。

好的人类工程基础设施，就是好的 AI 工程基础设施。

企业级 Agent 落地：要抓好左右手

The Two-Hand Framework for Enterprise AI Agents

Posted on May 13, 2026 | 4 min | 715 words

上周和一个做企业数字化的朋友吃饭。他公司去年花了两百多万，引入了一套"AI Agent 平台"。

销售演示的时候很惊艳：对着对话框说一句话，系统就能生成报表、审批流程、甚至写 SQL 查数据。

上线三个月后，他告诉我：

“员工用了两周就放弃了。现在那个系统成了公司最贵的摆设。”

我问他：系统出 Bug 了？

他说：不是。是系统不会变聪明。

第一个月，Agent 回答问题的准确率大概 70%。第二个月还是 70%。第三个月，员工发现问同样的问题，得到的答案一模一样——系统完全没有从实际使用中学到任何东西。

“它就是个会说话的自动化脚本。”

这句话戳中了一个很多人不愿承认的事实：

今天市面上 90% 的"企业 Agent"，本质上只是给 LLM 套了个聊天框。

如果你现在在做的系统不能自主进化，你已经落后了

Why Static Systems Are Already Obsolete

Posted on May 13, 2026 | 7 min | 1286 words

去年双十一之后，我和两个不同团队的负责人聊了聊。

团队 A 花了六个月打磨一套微服务架构：精致的 API 网关、完善的链路追踪、99.99% 的 SLA 承诺。上线那天，一切完美。

团队 B 用了两个月搭了个「粗糙」的系统：简单的单体应用、基础的日志收集、甚至有些地方用了硬编码。但他们在系统里埋了一个东西 —— 一套基于运行数据自动调优的反馈循环。

六个月后再看，团队 A 的系统依然「完美」，只是业务变了三次方向，每次都要拉齐五个服务重新发版，工程师疲于奔命。团队 B 的系统已经迭代了四十多个版本，配置参数自动优化了三轮，连架构都根据流量模式自动拆分了两个热点模块。

这不是关于谁的技术栈更好的故事。

这是关于 你在构建的是资产还是负债 的故事。

红杉 2026 AI Keynote 启示录：中国 SaaS 的扩散差距与 Agent 重构

Sequoia AI Keynote insights on China SaaS market and agent-driven transformation

Posted on May 11, 2026 | 5 min | 904 words

上周六深夜，我通过钉钉听记完整记录了红杉资本 2026 AI Keynote。35 分钟的演讲中，有一个词反复刺痛了我：Diffusion Gap（扩散差距）。

演讲者说：“基础模型能力的增长速度，远超企业采用速度。”

这句话翻译成中国 SaaS 市场的语境就是：你的客户还在用 Excel 管客户、用微信群发通知、用邮件批流程，而 AI Agent 已经能自主完成端到端任务了。这个差距不是 bug，是未来三年最大的商业机会。

构建 Agent 的动态路由决策系统：千人千面的任务执行引擎

Dynamic Routing Decision System for AI Agents

Posted on May 8, 2026 | 10 min | 2058 words

团队里的小王和小李都在用同一个 AI Agent 平台。

小王输入：「帮我总结一下今天群里的讨论。」

Agent 调用了 fast/small 模型做意图识别，然后用 medium 模型读取了 200 条消息，生成了摘要。耗时 3 秒，花费 0.02 元。

小李输入了完全相同的指令。

Agent 却调用了 large/reasoning 模型，不仅做了摘要，还自动关联了小李上周的项目文档，识别出了三个待办事项，并推送到了他的日历。耗时 12 秒，花费 0.15 元。

同样的输入，完全不同的执行路径。

这不是 bug，而是一个成熟的 Agent 系统应该具备的能力——根据用户画像、历史行为、任务上下文，动态决策每一步该用什么模型、什么工具、注入多少上下文、以什么并发度执行。

当你的 Agent 只有 100 个用户时，这些问题还不明显。你可以手动调几个规则，给 VIP 用户分配更好的模型，给普通用户限流。靠人肉运维，系统也能跑。

但当用户量从 100 涨到 10 万、100 万，当模型供应商从 1 家变成 10 家，当工具调用从几个 API 扩展到上百个——靠人写规则来调度，系统会直接崩溃。

不是因为规则写不出来，而是因为规则的组合空间是指数级的：

7 种任务类型 × 5 个复杂度等级 × 10 个模型 × 4 种用户画像 × 3 种上下文策略 = 4,200 种路由组合
这还只是单节点决策。如果任务被分解为 3-5 个子节点，每个节点独立路由，组合数直接爆炸到 百万级

没有人能手动维护百万级的路由规则表。

大多数 Agent 框架把执行路径写死在代码里：先调用 A 模型，再调用 B 工具，最后返回结果。这在 demo 阶段没问题，但一旦面向规模化用户，就会暴露三个致命问题：

成本失控——所有用户都用最强模型，简单任务也在烧钱，规模化后月账单直接六位数
体验一刀切——新手和专家拿到相同的结果，没有人觉得「懂我」，留存率上不去
无法进化——系统上线后不会从用户反馈中学习，规则越写越多，越用越僵化

这篇文章，我们来拆解如何构建一个动态路由决策系统（Dynamic Routing Decision System, DRDS）——一套端到端的自进化引擎，让 Agent 的执行路径真正做到千人千面，并且在规模化下持续学习、自动优化。

核心观点：自进化不是 Agent 的「加分项」，而是规模化后的「必选项」。