从 Demo 到生产：AI Agent 的系统工程时代

上周，两个行业信号先后落地，放在一起看，指向同一个结论。

3 月，Anthropic 宣布投入 1 亿美元建设 Claude Partner Network——不是发更多 API，而是建咨询伙伴体系、认证体系、co-selling 机制。Accenture 培训 30,000 人，Cognizant 覆盖 350,000 员工。这不是技术发布，是交付渠道建设。

5 月，Microsoft 在 Build 2026 把 Agent Governance 做成核心方向——ASSERT 开源评估框架、Agent Control Specification（ACS）开放标准、Agent 365、Foundry Observability。把 Agent 的评估、控制、审计和治理全部产品化。

大多数人还在讨论「谁的模型更强」「谁的 Agent demo 更酷」。但竞争已经换赛道了。

信号一：Anthropic 在解决「谁来交付」

Anthropic 的 Partner Network 本质是在建一条渠道。

模型能力再强，企业客户不会自己写 prompt、调参数、过合规、做集成。Accenture 和 Deloitte 存在的价值，不是他们懂 API——而是他们懂客户的组织架构、合规流程、采购决策，能把一个 demo 变成 production 系统。

Steve Corfield（Anthropic 全球商务发展负责人）说得很直白：

Our partners are instrumental in getting enterprises from proof of concept to production with Claude.

关键词是 from proof of concept to production。这一步，不是模型能力的差距，是交付能力的差距。

Anthropic 的策略很清楚：自己做模型和 API，把交付交给伙伴。认证体系（Claude Certified Architect）确保交付质量，Partner Hub 确保知识沉淀，co-investment 确保激励对齐。这是一套经典的平台渠道策略，只不过卖的不是 CRM 或 ERP，而是 AI 能力。

信号二：Microsoft 在解决「交付什么」

如果说 Anthropic 在解决「谁来交付」，Microsoft 在 Build 2026 解决的是「交付什么东西」。

企业需要的不是一个更聪明的 Agent demo。企业需要的是：

这个 Agent 的行为可审计吗？（ASSERT 评估框架）
这个 Agent 的权限可控制吗？（ACS 控制规范）
这个 Agent 出问题能追溯吗？（Foundry Observability）
这个 Agent 的 ROI 可度量吗？（Agent ROI Tracking）

Microsoft 把这四个问题产品化，本质是定义了 企业 AI 的交付标准。就像当年 SOX 法案定义了财务系统的审计标准，HIPAA 定义了医疗数据的保护标准——Agent Governance 正在定义 AI Agent 的生产准入标准。

ACS 的定位尤其值得关注。Microsoft 把它比作「agent safety 领域的 MCP 或 A2A」——portable、framework-agnostic、vendor-neutral。这意味着控制规范跟着 Agent 走，不绑定特定平台。KPMG、Zscaler、IBM、CrewAI 都是生态伙伴。

同一枚硬币的两面

维度	Anthropic	Microsoft
核心问题	谁来交付？	交付什么标准？
策略	建渠道（Partner Network）	定标准（ASSERT + ACS）
杠杆	伙伴杠杆（Accenture, Deloitte, Cognizant）	信任杠杆（KPMG, Zscaler, IBM）
解决的是	规模化交付的人力瓶颈	生产准入的信任瓶颈
交付标准	Claude Certified Architect	ASSERT 评估 + ACS 控制

两家在解决同一个问题的两端。Anthropic 解决供给侧——让足够多的人能交付 Claude。Microsoft 解决需求侧——让企业敢买 Agent 产品。

合在一起才是完整的企业 AI 交付闭环：有人卖（渠道），有人买（信任），中间有标准（治理）。

下一代企业 AI 产品的公式

把这些信号拼在一起，下一代企业 AI 产品的公式越来越清晰：

下一代企业 AI 产品 =

    Workflow Package             （可打包、可交付的工作流）
  + Governed Agent Runtime       （受治理的 Agent 运行时）
  + Eval / Observability         （评估 + 可观测性）
  + Partner Delivery Flywheel    （伙伴交付飞轮）
  + Business Outcome Metrics     （业务结果度量）

这不是「模型 + UI」。这是一个完整的 生产系统。

每一项都不是技术问题，是系统工程问题：

Workflow Package — 把 Agent 能力封装成可交付、可复制的工作流包。不是 notebook demo，是带版本管理、配置参数、错误处理的标准化交付物。

Governed Agent Runtime — Agent 在哪里跑、权限边界是什么、审批链怎么走、身份如何传递。这是运行时级别的治理能力，不是加个 guardrail 就能解决的。

Eval / Observability — Agent 在生产中的行为是否可评估、可观测。不只是 accuracy，还有 safety、latency、cost、compliance。ASSERT 和 Foundry 就是这个方向的产品化。

Partner Delivery Flywheel — 你能不能不靠自己的销售团队，让第三方伙伴也能成功交付你的产品？Anthropic 的认证体系就是在建这个飞轮。飞轮转起来的标志是： 你的人不需要到场，客户也能成功上线。

Business Outcome Metrics — 客户买的不是 token 或 API 调用，是业务结果。任务完成率、节省时间、成本效率、净业务价值。Microsoft 的 Agent ROI Tracking 就是这个方向。

钉钉和悟空的位置

看完这两家，再回头看钉钉和悟空。

钉钉的差异化不在模型——模型可以接多家。钉钉的差异化在于：Agent 运行在企业工作场景里，天然拥有组织上下文。

具体来说：

组织权限 → 就是 permission boundary。审批链本身就是 Agent 的权限边界。
组织架构 → 就是 trust boundary。谁向谁汇报、谁有权看什么数据，这是现成的信任图谱。
业务对象模型 → 就是 Agent 的操作对象。不是自由文本，是有 schema 的业务实体。
Workflow template → 就是可打包的 Workflow Package。审批、周报、OKR、项目推进，每一种都是可标准化的 Agent 工作流。
Eval 体系 → 就是生产环境的 Observability。Agent 在企业里的每一次执行，都可以用业务结果来评估。

这不是「给 Agent 加治理」，是 治理本身就是 Agent 的运行时。

Anthropic 的治理是后加的——模型本身不理解组织架构，需要外部框架来约束。Microsoft 的治理是平台层的——M365 提供了上下文，但 Agent 和业务对象之间的关系是松耦合的。

悟空的机会是： 治理前置。Agent Identity、Permission、Approval、Trace、Eval、Audit 做成一级平台能力，不是事后打补丁，而是 Agent 从第一行代码开始就运行在治理环境里。

这也是为什么把悟空的能力做成可交付、可复制的平台能力如此重要——它能把悟空的规模化交付变成可能，增加用户对在生产环境中使用悟空的信心。

还缺什么：定价模型

上面那个公式缺一个东西： 定价模型。

企业 AI 从 demo 到 production 的最后一道门槛，往往不是技术，是「怎么算钱」。

按 token？按 Agent 调用次数？按 workflow 执行量？按业务结果分成？还是按 seat license 回归老路？

定价模型决定了三件事：

Partner 的激励结构 — Accenture 愿意推你的产品，前提是他能从中赚到钱。如果定价让 partner 无利可图，渠道建不起来。
客户的采购决策 — CFO 不看 demo，看 unit economics。一个 Agent 替代 3 个人月的工作量，怎么定价让客户觉得值、自己觉得赚？
自己的 unit economics — 每次 Agent 执行的 token 成本、基础设施成本、eval 成本是多少？毛利率能支撑规模化吗？

这可能是整个行业下一步最值得想清楚的问题。技术栈和交付体系都在快速成熟，但定价模型还在摸索。谁先跑通「业务结果付费 + partner 激励 + 正毛利率」这个三角，谁就真正站稳了。

谁先跑通这套系统

回到开头的判断：AI Native SaaS 的竞争正在从「谁的模型强、谁的 Agent demo 厉害」，转向「谁能把 Agent 变成可治理、可交付、可评估、可计费的企业生产系统」。

Anthropic 选了渠道优先——先建交付能力，让 partner 去啃企业集成的脏活。Microsoft 选了信任优先——先定标准，让企业敢买 Agent 产品。

钉钉和悟空的机会在于场景优先——在企业工作流的原生场景里，把治理和交付能力做进产品本身。不是在 Agent 外面包一层治理，而是治理就是 Agent 的运行时。

谁先把 Workflow Package + Governed Agent Runtime + Eval + Partner Flywheel + Business Metrics 这套系统跑通，谁就更接近真正的 AI Native SaaS。

这不是模型之战。是系统工程之战。

你在企业 Agent 落地中遇到过什么交付或治理的坑？欢迎留言讨论。