构建 Agent 的动态路由决策系统:千人千面的任务执行引擎

Dynamic Routing Decision System for AI Agents

团队里的小王和小李都在用同一个 AI Agent 平台。

小王输入:「帮我总结一下今天群里的讨论。」

Agent 调用了 fast/small 模型做意图识别,然后用 medium 模型读取了 200 条消息,生成了摘要。耗时 3 秒,花费 0.02 元。

小李输入了完全相同的指令。

Agent 却调用了 large/reasoning 模型,不仅做了摘要,还自动关联了小李上周的项目文档,识别出了三个待办事项,并推送到了他的日历。耗时 12 秒,花费 0.15 元。

同样的输入,完全不同的执行路径。

这不是 bug,而是一个成熟的 Agent 系统应该具备的能力——根据用户画像、历史行为、任务上下文,动态决策每一步该用什么模型、什么工具、注入多少上下文、以什么并发度执行。

当你的 Agent 只有 100 个用户时,这些问题还不明显。你可以手动调几个规则,给 VIP 用户分配更好的模型,给普通用户限流。靠人肉运维,系统也能跑。

但当用户量从 100 涨到 10 万、100 万,当模型供应商从 1 家变成 10 家,当工具调用从几个 API 扩展到上百个——靠人写规则来调度,系统会直接崩溃

不是因为规则写不出来,而是因为规则的组合空间是指数级的:

  • 7 种任务类型 × 5 个复杂度等级 × 10 个模型 × 4 种用户画像 × 3 种上下文策略 = 4,200 种路由组合
  • 这还只是单节点决策。如果任务被分解为 3-5 个子节点,每个节点独立路由,组合数直接爆炸到 百万级

没有人能手动维护百万级的路由规则表。

大多数 Agent 框架把执行路径写死在代码里:先调用 A 模型,再调用 B 工具,最后返回结果。这在 demo 阶段没问题,但一旦面向规模化用户,就会暴露三个致命问题:

  1. 成本失控——所有用户都用最强模型,简单任务也在烧钱,规模化后月账单直接六位数
  2. 体验一刀切——新手和专家拿到相同的结果,没有人觉得「懂我」,留存率上不去
  3. 无法进化——系统上线后不会从用户反馈中学习,规则越写越多,越用越僵化

这篇文章,我们来拆解如何构建一个动态路由决策系统(Dynamic Routing Decision System, DRDS)——一套端到端的自进化引擎,让 Agent 的执行路径真正做到千人千面,并且在规模化下持续学习、自动优化。

核心观点:自进化不是 Agent 的「加分项」,而是规模化后的「必选项」。

[Read More]

AI 工程的 10X 生产力,藏在测试和监控里

Why Testing and Monitoring Are the Real Multipliers in AI Engineering

上周,隔壁组的小天在周会上很兴奋:“用 Cursor 一天写了 3000 行代码,这周迭代速度提升了一倍!”

同一周,他的服务触发了 4 次线上告警。

原因不复杂:AI 生成的代码跑通了主流程,但边界条件没覆盖,异常处理有遗漏,依赖服务的超时场景没考虑到。3000 行代码里,有 800 行是"看起来能跑"的代码。

小天不是个例。过去一年,几乎所有团队都经历了同一个曲线:

  1. 第一个月:AI 编码工具让产出翻倍,团队欢呼
  2. 第二个月:Bug 率上升,线上事故增多,开始还债
  3. 第三个月:实际交付速度回到了 AI 之前的水平,甚至更慢

问题出在哪里?

AI 降低了"写代码"的成本,但没有降低"交付可靠产品"的成本。 而后者,才是生产力的真实度量。

[Read More]

能做事的 Agent,需要一个推荐系统

Building a Task-Model-Sandbox Recommendation Engine for AI Agents

上周团队里的某同事给他的 AI Agent 加了一个"帮我总结这个网页"的功能。用户发一个 URL,Agent 自动打开、提取内容、生成摘要。听起来很简单对吧?

结果上线第一天就翻车了。

一个用户发了一个 GitHub 仓库链接,Agent 用浏览器沙箱打开了仓库首页,截取了 README 的前几屏,然后用一个 7B 的轻量模型生成了摘要——完全忽略了仓库里真正的核心代码和 issue 讨论。用户等了 40 秒,得到了一段废话。

同一个功能,另一个用户发了一个新闻网站链接,这次 Agent 反而用了最强的推理模型去处理——一个纯文本提取任务,花了不必要的 token 费用,还因为推理模型的"过度思考"把简单的新闻摘要写成了一篇分析报告。

某同事跑来找我:“模型能力明明够了,为什么用户体验这么差?”

我说:“你的问题不是模型不行,是你没有给任务找到合适的模型和执行环境。你缺的是一个推荐系统。”

[Read More]