企业级 Agent 落地：要抓好左右手

上周和一个做企业数字化的朋友吃饭。他公司去年花了两百多万，引入了一套"AI Agent 平台"。

销售演示的时候很惊艳：对着对话框说一句话，系统就能生成报表、审批流程、甚至写 SQL 查数据。

上线三个月后，他告诉我：

“员工用了两周就放弃了。现在那个系统成了公司最贵的摆设。”

我问他：系统出 Bug 了？

他说：不是。是系统不会变聪明。

第一个月，Agent 回答问题的准确率大概 70%。第二个月还是 70%。第三个月，员工发现问同样的问题，得到的答案一模一样——系统完全没有从实际使用中学到任何东西。

“它就是个会说话的自动化脚本。”

这句话戳中了一个很多人不愿承认的事实：

今天市面上 90% 的"企业 Agent"，本质上只是给 LLM 套了个聊天框。

一、问题的本质

企业软件的演进经历了三个阶段：

阶段一：功能驱动 (2000-2015)
┌─────────────────────────────┐
│  ERP / CRM / OA             │
│  ┌─────┐  ┌─────┐  ┌─────┐ │
│  │功能1│  │功能2│  │功能3│ │
│  └─────┘  └─────┘  └─────┘ │
│  人适应系统，流程固定         │
└─────────────────────────────┘

阶段二：数据驱动 (2015-2023)
┌─────────────────────────────┐
│  BI / Dashboard / Analytics │
│  ┌─────────────────────────┐│
│  │   数据看板 + 报表        ││
│  └─────────────────────────┘│
│  系统提供洞察，人做决策       │
└─────────────────────────────┘

阶段三：行动驱动 (2024-)
┌─────────────────────────────┐
│  AI Agent / AI Workforce    │
│  ┌─────────────────────────┐│
│  │  理解意图 → 执行行动     ││
│  │  获取反馈 → 持续优化     ││
│  └─────────────────────────┘│
│  系统适应人，流程动态生成     │
└─────────────────────────────┘

大多数公司以为自己在做阶段三，实际上只是给阶段一加了个对话框。

核心问题在于：他们只抓住了 Agent 的一半能力。

二、双手机制框架

企业级 Agent 真正落地，必须同时抓住两只手。

我称之为 双手机制（Two-Hand Framework）：

                    ┌─────────────────────────────┐
                    │      企业级 AI Agent         │
                    │                             │
        ┌───────────┤                             ├───────────┐
        │           │                             │           │
   ┌────▼────┐      │      ┌───────────────┐      │      ┌────▼────┐
   │  左 手   │      │      │   通用大脑     │      │      │  右 手   │
   │         │      │      │   (LLM)       │      │      │         │
   │ Coding  │◄─────┘      └───────┬───────┘      └─────►│   RL    │
   │         │                     │                     │         │
   │ 行动力   │                     │                     │ 进化力   │
   └────┬────┘                     │                     └────┬────┘
        │                          │                          │
        ▼                          ▼                          ▼
  ┌───────────┐            ┌───────────────┐          ┌─────────────┐
  │ Tool Call │            │  Reasoning    │          │  Reward     │
  │ API Call  │            │  Planning     │          │  Feedback   │
  │ Workflow  │            │  Memory       │          │  Policy Opt │
  │ Browser   │            │  Context      │          │  Online     │
  │ MCP       │            └───────────────┘          │  Learning   │
  │ SQL/Code  │                                       └─────────────┘
  └───────────┘                                              │
        │                                                    │
        ▼                                                    ▼
  ┌───────────────────────────────────────────────────────────────┐
  │                     企业数据飞轮                               │
  │                                                               │
  │   用户行为 → Agent执行 → 结果反馈 → Reward → 策略优化 → 更强Agent │
  │                                                               │
  └───────────────────────────────────────────────────────────────┘

左手：LLM 的强编码能力（Coding / Tool Use）

这是 生产力引擎。

大模型已经不只是"写代码"，而是在：

自动理解需求
自动调用工具
自动写 workflow
自动生成 API / SQL / 页面
自动 Debug / Refactor
自动连接企业系统

本质上：

Agent = 会自己操作软件的"数字员工"

过去企业软件的问题是：

维度	传统软件	Agent 驱动
交互方式	人适应系统界面	系统理解自然语言意图
流程设计	固定流程，IT 开发	动态生成，即时编排
扩展性	需要开发新功能	LLM 自动调用新工具
交付周期	周/月级	分钟/小时级
本质	软件是"功能"	软件是"行动"

所以企业级 Agent 的第一性原理：

让 LLM 获得"操作世界"的能力。

包括：

Coding — 生成代码、SQL、配置
Tool Calling — 调用外部 API 和工具
Browser — 操作 Web 界面
MCP — 标准化的工具协议
Workflow — 编排多步骤任务
API Orchestration — 连接企业系统
Memory — 持久化上下文和状态
Environment Interaction — 读写文件、数据库、消息队列

没有这一层，Agent 永远只是"聊天机器人"。

右手：强化学习能力（RL / Online Learning）

这是 持续变聪明的核心。

很多公司现在的问题是：

Demo 很惊艳
上线后越来越笨
无法真正适应企业场景

因为：

Prompt 不是学习。

Prompt 工程本质上是在"调参"，而不是在"训练"。你改一千次 prompt，系统也不会在运行过程中自动变好。

企业场景真正复杂的是：

多步骤决策 — 一个任务需要 10+ 步操作，每步都有分支
长链路任务 — 从需求到交付跨越多个系统和角色
模糊目标 — “提高客户满意度"不是明确的指令
动态环境 — 业务规则、数据结构、人员权限随时变化
组织协同 — 需要跨部门、跨角色的协作

这些靠 prompt 工程搞不定。

必须靠：

Reward（奖励信号） — 什么结果是好的？
Feedback（反馈回路） — 执行效果如何？
Policy Optimization（策略优化） — 如何调整行为？
Online Learning（在线学习） — 如何在运行中持续改进？

三、工业案例：RL 如何在企业中真正工作

理论说完了，看几个真实的工业级案例。

案例一：淘宝搜索的 RL 排序

淘宝搜索不是靠工程师手动调权重的。

它的排序系统是一个典型的 RL 系统：

用户搜索 "运动鞋"
    ↓
Agent (排序模型) 给出排序策略
    ↓
用户点击 / 购买 / 跳过
    ↓
Reward 计算：
  - 点击 = +0.1
  - 加购 = +0.5
  - 购买 = +1.0
  - 跳出 = -0.3
    ↓
策略梯度更新 (Policy Gradient)
    ↓
下一次搜索，排序更精准

关键：这个系统每天都在变聪明。双十一的策略和平时不同，大促期间的 reward 函数会动态调整（更看重转化率而非点击率）。

这不是 prompt 工程能做到的。

案例二：抖音推荐系统的在线学习

抖音的推荐系统是另一个 RL 的经典案例。

它的核心机制：

实时反馈 — 用户划走一个视频，0.1 秒内就产生一个负 reward
在线更新 — 模型不是离线训练好再部署的，而是在线持续更新
多目标优化 — 同时优化完播率、互动率、停留时长、负反馈率

结果：

抖音的推荐系统每天处理 数百亿次 决策，每次决策都在产生训练信号。

这就是数据飞轮的力量。

案例三：钉钉智能派单的 RL 优化

在钉钉的客服和工单场景中，派单策略直接影响 SLA（服务等级协议）达成率。

传统方式：按规则派单（轮询、负载均衡、技能匹配）。

RL 方式：

工单到达
    ↓
Agent 评估：
  - 工单类型 / 紧急度 / 客户等级
  - 当前客服负载 / 技能匹配度 / 历史处理效率
    ↓
选择派单策略
    ↓
结果反馈：
  - 响应时间
  - 解决时长
  - 客户满意度
  - 是否升级
    ↓
Reward = f(响应时间, 满意度, SLA达成)
    ↓
策略优化：哪种派单方式在什么场景下最优

实际效果：某企业上线 RL 派单后，SLA 达成率从 82% 提升到 94%，平均响应时间缩短 35%。

核心差异：规则系统是静态的，RL 系统是动态适应的。旺季和淡季、新人期和熟练期，策略自动调整。

四、两只手缺一不可

用一个对比表来总结：

维度	只有 Coding	只有 RL	Coding + RL (双手机制)
执行能力	✅ 能调用工具、写代码	❌ 没有执行手段	✅ 完整行动力
学习能力	❌ 不会变聪明	✅ 能优化策略	✅ 持续进化
适应性	❌ 环境变化就失效	⚠️ 能适应但没有执行手段	✅ 动态适应 + 执行
长期价值	⚠️ 变成自动化脚本生成器	⚠️ 有大脑但没有手脚	✅ 形成数据飞轮
本质	工具人	理论家	数字员工

所以企业级 Agent 的终局公式：

LLM      = 通用大脑（理解、推理、规划）
Coding   = 行动力（操作世界的能力）
RL       = 自我进化能力（从经验中学习）

三者缺一不可。

五、如何落地：从 L1 到 L3 的演进路径

很多公司的问题是：想一步到位，结果两手都没抓住。

实际落地需要分阶段演进：

L1: 自动化阶段 (1-3个月)
├── 左手：LLM + Tool Calling + Workflow
├── 右手：人工反馈收集（打标签、评分）
└── 目标：让 Agent 能干活，建立反馈数据基础

L2: 反馈驱动阶段 (3-6个月)
├── 左手：MCP + API Orchestration + Memory
├── 右手：离线 RL（用历史数据训练 reward model）
└── 目标：Agent 开始从历史数据中学习优化

L3: 自主进化阶段 (6-12个月)
├── 左手：全工具链 + 跨系统编排
├── 右手：在线 RL + 实时策略更新
└── 目标：Agent 在运行中持续变聪明，形成数据飞轮

关键原则：

先有左手，再有右手 — 没有执行能力，RL 无从谈起
先有反馈，再有学习 — 没有 reward 信号，RL 是空转
先离线，再在线 — 先用历史数据验证，再上实时学习
先单场景，再扩展 — 在一个场景跑通飞轮，再复制到其他场景

六、总结

企业级 Agent 和传统 SaaS 的根本分界线，不在于"有没有 AI”，而在于：

系统能不能在执行中持续变聪明。

传统 SaaS 是静态的——功能写好了就在那里，不会因为你用了 1000 次就变得更好用。

套了聊天框的 Agent 也是静态的——prompt 写好了就在那里，不会因为你问了 1000 次就回答得更准确。

只有同时具备 Coding（行动力） 和 RL（进化力） 的 Agent，才是真正的 AI Workforce：

能执行 — 操作软件、调用 API、生成代码
能协作 — 跨系统、跨角色、跨部门
能学习 — 从反馈中优化策略
能进化 — 在运行中持续变聪明

这才是企业数字化从"工具时代"进入"智能体时代"的真正标志。

你在实际落地 Agent 的过程中，是卡在了左手（执行能力）还是右手（学习能力）？欢迎留言讨论。