从 Demo 到生产:AI Agent 的系统工程时代

The competition has shifted from model benchmarks to delivery infrastructure

上周,两个行业信号先后落地,放在一起看,指向同一个结论。

3 月,Anthropic 宣布投入 1 亿美元建设 Claude Partner Network——不是发更多 API,而是建咨询伙伴体系、认证体系、co-selling 机制。Accenture 培训 30,000 人,Cognizant 覆盖 350,000 员工。这不是技术发布,是交付渠道建设。

5 月,Microsoft 在 Build 2026 把 Agent Governance 做成核心方向——ASSERT 开源评估框架、Agent Control Specification(ACS)开放标准、Agent 365、Foundry Observability。把 Agent 的评估、控制、审计和治理全部产品化。

大多数人还在讨论「谁的模型更强」「谁的 Agent demo 更酷」。但竞争已经换赛道了。

从 Demo 到生产:AI Agent 的系统工程时代

信号一:Anthropic 在解决「谁来交付」

Anthropic 的 Partner Network 本质是在建一条渠道。

模型能力再强,企业客户不会自己写 prompt、调参数、过合规、做集成。Accenture 和 Deloitte 存在的价值,不是他们懂 API——而是他们懂客户的组织架构、合规流程、采购决策,能把一个 demo 变成 production 系统。

Steve Corfield(Anthropic 全球商务发展负责人)说得很直白:

Our partners are instrumental in getting enterprises from proof of concept to production with Claude.

关键词是 from proof of concept to production。这一步,不是模型能力的差距,是交付能力的差距。

Anthropic 的策略很清楚:自己做模型和 API,把交付交给伙伴。认证体系(Claude Certified Architect)确保交付质量,Partner Hub 确保知识沉淀,co-investment 确保激励对齐。这是一套经典的平台渠道策略,只不过卖的不是 CRM 或 ERP,而是 AI 能力。

信号二:Microsoft 在解决「交付什么」

如果说 Anthropic 在解决「谁来交付」,Microsoft 在 Build 2026 解决的是「交付什么东西」。

企业需要的不是一个更聪明的 Agent demo。企业需要的是:

  • 这个 Agent 的行为可审计吗?(ASSERT 评估框架)
  • 这个 Agent 的权限可控制吗?(ACS 控制规范)
  • 这个 Agent 出问题能追溯吗?(Foundry Observability)
  • 这个 Agent 的 ROI 可度量吗?(Agent ROI Tracking)

Microsoft 把这四个问题产品化,本质是定义了 企业 AI 的交付标准。就像当年 SOX 法案定义了财务系统的审计标准,HIPAA 定义了医疗数据的保护标准——Agent Governance 正在定义 AI Agent 的生产准入标准。

ACS 的定位尤其值得关注。Microsoft 把它比作「agent safety 领域的 MCP 或 A2A」——portable、framework-agnostic、vendor-neutral。这意味着控制规范跟着 Agent 走,不绑定特定平台。KPMG、Zscaler、IBM、CrewAI 都是生态伙伴。

同一枚硬币的两面

维度AnthropicMicrosoft
核心问题谁来交付?交付什么标准?
策略建渠道(Partner Network)定标准(ASSERT + ACS)
杠杆伙伴杠杆(Accenture, Deloitte, Cognizant)信任杠杆(KPMG, Zscaler, IBM)
解决的是规模化交付的 人力瓶颈生产准入的 信任瓶颈
交付标准Claude Certified ArchitectASSERT 评估 + ACS 控制

两家在解决同一个问题的两端。Anthropic 解决供给侧——让足够多的人能交付 Claude。Microsoft 解决需求侧——让企业敢买 Agent 产品。

合在一起才是完整的企业 AI 交付闭环:有人卖(渠道),有人买(信任),中间有标准(治理)。

下一代企业 AI 产品的公式

把这些信号拼在一起,下一代企业 AI 产品的公式越来越清晰:

下一代企业 AI 产品 =

    Workflow Package             (可打包、可交付的工作流)
  + Governed Agent Runtime       (受治理的 Agent 运行时)
  + Eval / Observability         (评估 + 可观测性)
  + Partner Delivery Flywheel    (伙伴交付飞轮)
  + Business Outcome Metrics     (业务结果度量)

这不是「模型 + UI」。这是一个完整的 生产系统

每一项都不是技术问题,是系统工程问题:

Workflow Package — 把 Agent 能力封装成可交付、可复制的工作流包。不是 notebook demo,是带版本管理、配置参数、错误处理的标准化交付物。

Governed Agent Runtime — Agent 在哪里跑、权限边界是什么、审批链怎么走、身份如何传递。这是运行时级别的治理能力,不是加个 guardrail 就能解决的。

Eval / Observability — Agent 在生产中的行为是否可评估、可观测。不只是 accuracy,还有 safety、latency、cost、compliance。ASSERT 和 Foundry 就是这个方向的产品化。

Partner Delivery Flywheel — 你能不能不靠自己的销售团队,让第三方伙伴也能成功交付你的产品?Anthropic 的认证体系就是在建这个飞轮。飞轮转起来的标志是: 你的人不需要到场,客户也能成功上线。

Business Outcome Metrics — 客户买的不是 token 或 API 调用,是业务结果。任务完成率、节省时间、成本效率、净业务价值。Microsoft 的 Agent ROI Tracking 就是这个方向。

钉钉和悟空的位置

看完这两家,再回头看钉钉和悟空。

钉钉的差异化不在模型——模型可以接多家。钉钉的差异化在于:Agent 运行在企业工作场景里,天然拥有组织上下文。

具体来说:

  • 组织权限 → 就是 permission boundary。审批链本身就是 Agent 的权限边界。
  • 组织架构 → 就是 trust boundary。谁向谁汇报、谁有权看什么数据,这是现成的信任图谱。
  • 业务对象模型 → 就是 Agent 的操作对象。不是自由文本,是有 schema 的业务实体。
  • Workflow template → 就是可打包的 Workflow Package。审批、周报、OKR、项目推进,每一种都是可标准化的 Agent 工作流。
  • Eval 体系 → 就是生产环境的 Observability。Agent 在企业里的每一次执行,都可以用业务结果来评估。

这不是「给 Agent 加治理」,是 治理本身就是 Agent 的运行时

Anthropic 的治理是后加的——模型本身不理解组织架构,需要外部框架来约束。Microsoft 的治理是平台层的——M365 提供了上下文,但 Agent 和业务对象之间的关系是松耦合的。

悟空的机会是: 治理前置。Agent Identity、Permission、Approval、Trace、Eval、Audit 做成一级平台能力,不是事后打补丁,而是 Agent 从第一行代码开始就运行在治理环境里。

这也是为什么把悟空的能力做成可交付、可复制的平台能力如此重要——它能把悟空的规模化交付变成可能,增加用户对在生产环境中使用悟空的信心。

还缺什么:定价模型

上面那个公式缺一个东西: 定价模型

企业 AI 从 demo 到 production 的最后一道门槛,往往不是技术,是「怎么算钱」。

按 token?按 Agent 调用次数?按 workflow 执行量?按业务结果分成?还是按 seat license 回归老路?

定价模型决定了三件事:

  1. Partner 的激励结构 — Accenture 愿意推你的产品,前提是他能从中赚到钱。如果定价让 partner 无利可图,渠道建不起来。
  2. 客户的采购决策 — CFO 不看 demo,看 unit economics。一个 Agent 替代 3 个人月的工作量,怎么定价让客户觉得值、自己觉得赚?
  3. 自己的 unit economics — 每次 Agent 执行的 token 成本、基础设施成本、eval 成本是多少?毛利率能支撑规模化吗?

这可能是整个行业下一步最值得想清楚的问题。技术栈和交付体系都在快速成熟,但定价模型还在摸索。谁先跑通「业务结果付费 + partner 激励 + 正毛利率」这个三角,谁就真正站稳了。

谁先跑通这套系统

回到开头的判断:AI Native SaaS 的竞争正在从「谁的模型强、谁的 Agent demo 厉害」,转向「谁能把 Agent 变成可治理、可交付、可评估、可计费的企业生产系统」。

Anthropic 选了渠道优先——先建交付能力,让 partner 去啃企业集成的脏活。Microsoft 选了信任优先——先定标准,让企业敢买 Agent 产品。

钉钉和悟空的机会在于场景优先——在企业工作流的原生场景里,把治理和交付能力做进产品本身。不是在 Agent 外面包一层治理,而是治理就是 Agent 的运行时。

谁先把 Workflow Package + Governed Agent Runtime + Eval + Partner Flywheel + Business Metrics 这套系统跑通,谁就更接近真正的 AI Native SaaS。

这不是模型之战。是系统工程之战。

你在企业 Agent 落地中遇到过什么交付或治理的坑?欢迎留言讨论。


See also