AI Agent 定时任务的自动优化

Telemetry-driven cron optimization for AI agent runtimes

上个月,我发现一个跑了 3 周的定时任务每天都在用 Claude Sonnet 4 做一件极其简单的事——搜索两条关键词、整理成表格、发给我。每次消耗约 8000 token,成本 $0.12。换成 GPT-4o-mini,同样的任务 2000 token 就够,成本 $0.003。

3 周 × 每天 $0.12 = $2.52。换成 mini 只要 $0.06。

这不是模型的问题,也不是调度器的问题——是 调度器和模型选择之间缺了一层。你的 cron 系统知道什么时候该跑这个任务,但完全不知道该用什么模型、多少推理深度来跑。

从盲调度到自适应调度

[Read More]

用 Goal 取代 Graph:多智能体框架的真正方向

Give agents a playground, not a blank canvas

2023 年 3 月,一个名叫 Toran Bruce Richards 的开发者发布了 AutoGPT,两周内 GitHub Star 突破 10 万。他在 README 里写道:「给 AI 一个目标,它自己规划、自己执行、自己反思。」不需要你画流程图,不需要定义任务依赖——完全自治。

三个月后,Richards 的 GitHub Issues 页面变成了大型翻车现场。一个被反复引用的案例:用户让 AutoGPT「研究人工智能的历史」,Agent 搜索了 10 篇文章,保存,然后又搜索了 8 篇,再保存,然后检查自己保存的文件,然后重新搜索……无限循环,API 费用烧了几十美元,一事无成。AutoGPT 的 GitHub 仓库里记录了超过 200 个类似的 infinite loop issue。

AutoGPT 的失败让行业得出了一个看似正确的结论: Agent 需要预定义的执行图。于是 LangGraph 成了 2026 年最受欢迎的 Agent 框架——62% 的开发者选择了它,正是因为它提供了精细的状态机控制和可预测的执行路径。

但我跟很多在用 LangGraph 的团队聊过,他们私下都在抱怨同一件事: 画图太痛苦了。 每增加一个能力,就要重新设计图的拓扑结构;每遇到一个边界情况,就要加一条边和一个条件分支。开发者的时间,一半花在写 Agent 逻辑,另一半花在维护那张 DAG。

这就引出了一个真正的问题:DAG 是答案吗?还是我们在 AutoGPT 的阴影下过度矫正了?

从 DAG 到 Goal:多智能体框架的演进

[Read More]

你不需要会编程:对话即编程,一个会进化的工作流系统

How Non-Technical Users Build Evolving Programmatic Systems Through Conversation

上周五下午 4 点,一个管着 30 人销售团队的区域总监在钉钉里对悟空说了一句话:

「帮我把本周所有客户的跟进记录整理成表格,标记哪些超过 3 天没回访的,然后给对应的销售发个提醒。」

她没有写一行代码。她甚至不知道什么是 API。但 30 秒后,一张 AI 表格建好了,12 条超时记录标红了,12 条 DING 消息已经发到了对应销售的手机上。

这不是 demo,是她每天的工作方式。

对话即编程:传统方式 vs 对话即编程

[Read More]

SKILL.md 不是文档,是编译器

How a 900-Line Markdown File Turns AI From a Chatbot Into a Content Pipeline

「准备写一个 blog,详细讲解这个 skill。」

我对 Agent 说完这句话后,它在 0.5 秒内完成了三件事:加载 900 行 SKILL.md、扫描过去 127 篇博客的标题做交叉引用、按 Planner 模块输出了文章分类和大纲。没有追问「你想写什么角度」,没有问「用什么语气」,没有忘记中文排版要加空格。

SKILL.md 六阶段流水线——从 Markdown 文件到内容生产系统

[Read More]

AI Agent使用的复利效应:为什么第二步的「无用功」最值得投入

The Compound Interest of Agent Adoption: Why Redundant Work Pays Off Exponentially

HashiCorp 的 Mitchell 把自己的 AI 使用历程分成六个阶段。他不是那种用了就觉得好的人,每个阶段都带着怀疑和验证。六步走完后,他得出了一个反直觉的结论:最痛苦、看起来最「无用」的第二步,恰恰是后续一切复利的起点。

大多数人从第一步直接跳到第四步 —— 觉得 AI 好用就开始委托任务。Mitchell 却在第二步花了大量时间做冗余工作:已经手动完成的事,再让 Agent 做一遍。原文说「I literally did the work twice」。目的不是省时间,是建立对 Agent 能力边界的真实认知。

正是这个阶段的「无用功」,让后续每一步都产生了指数级的复利效应。

[Read More]

基础设施比模型更重要:Stripe Minions 给 AI Agent 落地的启示

Why Engineering Infrastructure Matters More Than Model Choice for AI Agents

昨晚在电子书上读到一段关于 Stripe Minions 的文字,让我停下来想了很久。

不是因为它用了什么惊艳的模型,而是因为它揭示了一个被大多数人忽略的事实:

Minions 能 work 的首要原因跟 AI 模型本身几乎无关,而是 Stripe 在 LLM 出现之前就为人类工程师建设了多年的基础设施。

完整的代码树、成熟的构建系统、全面的测试覆盖、标准化的开发环境——这些不是为 AI 准备的,是十多年来为人类工程师准备的。AI Agent 到来时,直接继承了这套基础设施。

好的人类工程基础设施,就是好的 AI 工程基础设施。

[Read More]

企业级 Agent 落地:要抓好左右手

The Two-Hand Framework for Enterprise AI Agents

上周和一个做企业数字化的朋友吃饭。他公司去年花了两百多万,引入了一套"AI Agent 平台"。

销售演示的时候很惊艳:对着对话框说一句话,系统就能生成报表、审批流程、甚至写 SQL 查数据。

上线三个月后,他告诉我:

“员工用了两周就放弃了。现在那个系统成了公司最贵的摆设。”

我问他:系统出 Bug 了?

他说:不是。是系统不会变聪明

第一个月,Agent 回答问题的准确率大概 70%。第二个月还是 70%。第三个月,员工发现问同样的问题,得到的答案一模一样——系统完全没有从实际使用中学到任何东西。

“它就是个会说话的自动化脚本。”

这句话戳中了一个很多人不愿承认的事实:

今天市面上 90% 的"企业 Agent",本质上只是给 LLM 套了个聊天框。

[Read More]

如果你现在在做的系统不能自主进化,你已经落后了

Why Static Systems Are Already Obsolete

去年双十一之后,我和两个不同团队的负责人聊了聊。

团队 A 花了六个月打磨一套微服务架构:精致的 API 网关、完善的链路追踪、99.99% 的 SLA 承诺。上线那天,一切完美。

团队 B 用了两个月搭了个「粗糙」的系统:简单的单体应用、基础的日志收集、甚至有些地方用了硬编码。但他们在系统里埋了一个东西 —— 一套基于运行数据自动调优的反馈循环。

六个月后再看,团队 A 的系统依然「完美」,只是业务变了三次方向,每次都要拉齐五个服务重新发版,工程师疲于奔命。团队 B 的系统已经迭代了四十多个版本,配置参数自动优化了三轮,连架构都根据流量模式自动拆分了两个热点模块。

这不是关于谁的技术栈更好的故事。

这是关于 你在构建的是资产还是负债 的故事。

[Read More]

红杉 2026 AI Keynote 启示录:中国 SaaS 的扩散差距与 Agent 重构

Sequoia AI Keynote insights on China SaaS market and agent-driven transformation

上周六深夜,我通过钉钉听记完整记录了红杉资本 2026 AI Keynote。35 分钟的演讲中,有一个词反复刺痛了我:Diffusion Gap(扩散差距)

演讲者说:“基础模型能力的增长速度,远超企业采用速度。”

这句话翻译成中国 SaaS 市场的语境就是:你的客户还在用 Excel 管客户、用微信群发通知、用邮件批流程,而 AI Agent 已经能自主完成端到端任务了。这个差距不是 bug,是未来三年最大的商业机会。

[Read More]

构建 Agent 的动态路由决策系统:千人千面的任务执行引擎

Dynamic Routing Decision System for AI Agents

团队里的小王和小李都在用同一个 AI Agent 平台。

小王输入:「帮我总结一下今天群里的讨论。」

Agent 调用了 fast/small 模型做意图识别,然后用 medium 模型读取了 200 条消息,生成了摘要。耗时 3 秒,花费 0.02 元。

小李输入了完全相同的指令。

Agent 却调用了 large/reasoning 模型,不仅做了摘要,还自动关联了小李上周的项目文档,识别出了三个待办事项,并推送到了他的日历。耗时 12 秒,花费 0.15 元。

同样的输入,完全不同的执行路径。

这不是 bug,而是一个成熟的 Agent 系统应该具备的能力——根据用户画像、历史行为、任务上下文,动态决策每一步该用什么模型、什么工具、注入多少上下文、以什么并发度执行。

当你的 Agent 只有 100 个用户时,这些问题还不明显。你可以手动调几个规则,给 VIP 用户分配更好的模型,给普通用户限流。靠人肉运维,系统也能跑。

但当用户量从 100 涨到 10 万、100 万,当模型供应商从 1 家变成 10 家,当工具调用从几个 API 扩展到上百个——靠人写规则来调度,系统会直接崩溃

不是因为规则写不出来,而是因为规则的组合空间是指数级的:

  • 7 种任务类型 × 5 个复杂度等级 × 10 个模型 × 4 种用户画像 × 3 种上下文策略 = 4,200 种路由组合
  • 这还只是单节点决策。如果任务被分解为 3-5 个子节点,每个节点独立路由,组合数直接爆炸到 百万级

没有人能手动维护百万级的路由规则表。

大多数 Agent 框架把执行路径写死在代码里:先调用 A 模型,再调用 B 工具,最后返回结果。这在 demo 阶段没问题,但一旦面向规模化用户,就会暴露三个致命问题:

  1. 成本失控——所有用户都用最强模型,简单任务也在烧钱,规模化后月账单直接六位数
  2. 体验一刀切——新手和专家拿到相同的结果,没有人觉得「懂我」,留存率上不去
  3. 无法进化——系统上线后不会从用户反馈中学习,规则越写越多,越用越僵化

这篇文章,我们来拆解如何构建一个动态路由决策系统(Dynamic Routing Decision System, DRDS)——一套端到端的自进化引擎,让 Agent 的执行路径真正做到千人千面,并且在规模化下持续学习、自动优化。

核心观点:自进化不是 Agent 的「加分项」,而是规模化后的「必选项」。

[Read More]