企业级 Agent 落地:要抓好左右手

The Two-Hand Framework for Enterprise AI Agents

上周和一个做企业数字化的朋友吃饭。他公司去年花了两百多万,引入了一套"AI Agent 平台"。

销售演示的时候很惊艳:对着对话框说一句话,系统就能生成报表、审批流程、甚至写 SQL 查数据。

上线三个月后,他告诉我:

“员工用了两周就放弃了。现在那个系统成了公司最贵的摆设。”

我问他:系统出 Bug 了?

他说:不是。是系统不会变聪明

第一个月,Agent 回答问题的准确率大概 70%。第二个月还是 70%。第三个月,员工发现问同样的问题,得到的答案一模一样——系统完全没有从实际使用中学到任何东西。

“它就是个会说话的自动化脚本。”

这句话戳中了一个很多人不愿承认的事实:

今天市面上 90% 的"企业 Agent",本质上只是给 LLM 套了个聊天框。

一、问题的本质

企业软件的演进经历了三个阶段:

阶段一:功能驱动 (2000-2015)
┌─────────────────────────────┐
│  ERP / CRM / OA             │
│  ┌─────┐  ┌─────┐  ┌─────┐ │
│  │功能1│  │功能2│  │功能3│ │
│  └─────┘  └─────┘  └─────┘ │
│  人适应系统,流程固定         │
└─────────────────────────────┘

阶段二:数据驱动 (2015-2023)
┌─────────────────────────────┐
│  BI / Dashboard / Analytics │
│  ┌─────────────────────────┐│
│  │   数据看板 + 报表        ││
│  └─────────────────────────┘│
│  系统提供洞察,人做决策       │
└─────────────────────────────┘

阶段三:行动驱动 (2024-)
┌─────────────────────────────┐
│  AI Agent / AI Workforce    │
│  ┌─────────────────────────┐│
│  │  理解意图 → 执行行动     ││
│  │  获取反馈 → 持续优化     ││
│  └─────────────────────────┘│
│  系统适应人,流程动态生成     │
└─────────────────────────────┘

大多数公司以为自己在做阶段三,实际上只是给阶段一加了个对话框。

核心问题在于:他们只抓住了 Agent 的一半能力。

二、双手机制框架

企业级 Agent 真正落地,必须同时抓住两只手。

我称之为 双手机制(Two-Hand Framework)

                    ┌─────────────────────────────┐
                    │      企业级 AI Agent         │
                    │                             │
        ┌───────────┤                             ├───────────┐
        │           │                             │           │
   ┌────▼────┐      │      ┌───────────────┐      │      ┌────▼────┐
   │  左 手   │      │      │   通用大脑     │      │      │  右 手   │
   │         │      │      │   (LLM)       │      │      │         │
   │ Coding  │◄─────┘      └───────┬───────┘      └─────►│   RL    │
   │         │                     │                     │         │
   │ 行动力   │                     │                     │ 进化力   │
   └────┬────┘                     │                     └────┬────┘
        │                          │                          │
        ▼                          ▼                          ▼
  ┌───────────┐            ┌───────────────┐          ┌─────────────┐
  │ Tool Call │            │  Reasoning    │          │  Reward     │
  │ API Call  │            │  Planning     │          │  Feedback   │
  │ Workflow  │            │  Memory       │          │  Policy Opt │
  │ Browser   │            │  Context      │          │  Online     │
  │ MCP       │            └───────────────┘          │  Learning   │
  │ SQL/Code  │                                       └─────────────┘
  └───────────┘                                              │
        │                                                    │
        ▼                                                    ▼
  ┌───────────────────────────────────────────────────────────────┐
  │                     企业数据飞轮                               │
  │                                                               │
  │   用户行为 → Agent执行 → 结果反馈 → Reward → 策略优化 → 更强Agent │
  │                                                               │
  └───────────────────────────────────────────────────────────────┘

左手:LLM 的强编码能力(Coding / Tool Use)

这是 生产力引擎

大模型已经不只是"写代码",而是在:

  • 自动理解需求
  • 自动调用工具
  • 自动写 workflow
  • 自动生成 API / SQL / 页面
  • 自动 Debug / Refactor
  • 自动连接企业系统

本质上:

Agent = 会自己操作软件的"数字员工"

过去企业软件的问题是:

维度传统软件Agent 驱动
交互方式人适应系统界面系统理解自然语言意图
流程设计固定流程,IT 开发动态生成,即时编排
扩展性需要开发新功能LLM 自动调用新工具
交付周期周/月级分钟/小时级
本质软件是"功能"软件是"行动"

所以企业级 Agent 的第一性原理:

让 LLM 获得"操作世界"的能力。

包括:

  • Coding — 生成代码、SQL、配置
  • Tool Calling — 调用外部 API 和工具
  • Browser — 操作 Web 界面
  • MCP — 标准化的工具协议
  • Workflow — 编排多步骤任务
  • API Orchestration — 连接企业系统
  • Memory — 持久化上下文和状态
  • Environment Interaction — 读写文件、数据库、消息队列

没有这一层,Agent 永远只是"聊天机器人"。

右手:强化学习能力(RL / Online Learning)

这是 持续变聪明的核心

很多公司现在的问题是:

  • Demo 很惊艳
  • 上线后越来越笨
  • 无法真正适应企业场景

因为:

Prompt 不是学习。

Prompt 工程本质上是在"调参",而不是在"训练"。你改一千次 prompt,系统也不会在运行过程中自动变好。

企业场景真正复杂的是:

  • 多步骤决策 — 一个任务需要 10+ 步操作,每步都有分支
  • 长链路任务 — 从需求到交付跨越多个系统和角色
  • 模糊目标 — “提高客户满意度"不是明确的指令
  • 动态环境 — 业务规则、数据结构、人员权限随时变化
  • 组织协同 — 需要跨部门、跨角色的协作

这些靠 prompt 工程搞不定。

必须靠:

  • Reward(奖励信号) — 什么结果是好的?
  • Feedback(反馈回路) — 执行效果如何?
  • Policy Optimization(策略优化) — 如何调整行为?
  • Online Learning(在线学习) — 如何在运行中持续改进?

三、工业案例:RL 如何在企业中真正工作

理论说完了,看几个真实的工业级案例。

案例一:淘宝搜索的 RL 排序

淘宝搜索不是靠工程师手动调权重的。

它的排序系统是一个典型的 RL 系统:

用户搜索 "运动鞋"
Agent (排序模型) 给出排序策略
用户点击 / 购买 / 跳过
Reward 计算:
  - 点击 = +0.1
  - 加购 = +0.5
  - 购买 = +1.0
  - 跳出 = -0.3
策略梯度更新 (Policy Gradient)
下一次搜索,排序更精准

关键:这个系统每天都在变聪明。双十一的策略和平时不同,大促期间的 reward 函数会动态调整(更看重转化率而非点击率)。

这不是 prompt 工程能做到的。

案例二:抖音推荐系统的在线学习

抖音的推荐系统是另一个 RL 的经典案例。

它的核心机制:

  • 实时反馈 — 用户划走一个视频,0.1 秒内就产生一个负 reward
  • 在线更新 — 模型不是离线训练好再部署的,而是在线持续更新
  • 多目标优化 — 同时优化完播率、互动率、停留时长、负反馈率

结果:

抖音的推荐系统每天处理 数百亿次 决策,每次决策都在产生训练信号。

这就是数据飞轮的力量。

案例三:钉钉智能派单的 RL 优化

在钉钉的客服和工单场景中,派单策略直接影响 SLA(服务等级协议)达成率。

传统方式:按规则派单(轮询、负载均衡、技能匹配)。

RL 方式:

工单到达
Agent 评估:
  - 工单类型 / 紧急度 / 客户等级
  - 当前客服负载 / 技能匹配度 / 历史处理效率
选择派单策略
结果反馈:
  - 响应时间
  - 解决时长
  - 客户满意度
  - 是否升级
Reward = f(响应时间, 满意度, SLA达成)
策略优化:哪种派单方式在什么场景下最优

实际效果:某企业上线 RL 派单后,SLA 达成率从 82% 提升到 94%,平均响应时间缩短 35%。

核心差异:规则系统是静态的,RL 系统是动态适应的。旺季和淡季、新人期和熟练期,策略自动调整。

四、两只手缺一不可

用一个对比表来总结:

维度只有 Coding只有 RLCoding + RL (双手机制)
执行能力✅ 能调用工具、写代码❌ 没有执行手段✅ 完整行动力
学习能力❌ 不会变聪明✅ 能优化策略✅ 持续进化
适应性❌ 环境变化就失效⚠️ 能适应但没有执行手段✅ 动态适应 + 执行
长期价值⚠️ 变成自动化脚本生成器⚠️ 有大脑但没有手脚✅ 形成数据飞轮
本质工具人理论家数字员工

所以企业级 Agent 的终局公式:

LLM      = 通用大脑(理解、推理、规划)
Coding   = 行动力(操作世界的能力)
RL       = 自我进化能力(从经验中学习)

三者缺一不可。

五、如何落地:从 L1 到 L3 的演进路径

很多公司的问题是:想一步到位,结果两手都没抓住。

实际落地需要分阶段演进:

L1: 自动化阶段 (1-3个月)
├── 左手:LLM + Tool Calling + Workflow
├── 右手:人工反馈收集(打标签、评分)
└── 目标:让 Agent 能干活,建立反馈数据基础

L2: 反馈驱动阶段 (3-6个月)
├── 左手:MCP + API Orchestration + Memory
├── 右手:离线 RL(用历史数据训练 reward model)
└── 目标:Agent 开始从历史数据中学习优化

L3: 自主进化阶段 (6-12个月)
├── 左手:全工具链 + 跨系统编排
├── 右手:在线 RL + 实时策略更新
└── 目标:Agent 在运行中持续变聪明,形成数据飞轮

关键原则

  1. 先有左手,再有右手 — 没有执行能力,RL 无从谈起
  2. 先有反馈,再有学习 — 没有 reward 信号,RL 是空转
  3. 先离线,再在线 — 先用历史数据验证,再上实时学习
  4. 先单场景,再扩展 — 在一个场景跑通飞轮,再复制到其他场景

六、总结

企业级 Agent 和传统 SaaS 的根本分界线,不在于"有没有 AI”,而在于:

系统能不能在执行中持续变聪明。

传统 SaaS 是静态的——功能写好了就在那里,不会因为你用了 1000 次就变得更好用。

套了聊天框的 Agent 也是静态的——prompt 写好了就在那里,不会因为你问了 1000 次就回答得更准确。

只有同时具备 Coding(行动力)RL(进化力) 的 Agent,才是真正的 AI Workforce:

  • 能执行 — 操作软件、调用 API、生成代码
  • 能协作 — 跨系统、跨角色、跨部门
  • 能学习 — 从反馈中优化策略
  • 能进化 — 在运行中持续变聪明

这才是企业数字化从"工具时代"进入"智能体时代"的真正标志。


你在实际落地 Agent 的过程中,是卡在了左手(执行能力)还是右手(学习能力)?欢迎留言讨论。


See also