上周和一个做企业数字化的朋友吃饭。他公司去年花了两百多万,引入了一套"AI Agent 平台"。
销售演示的时候很惊艳:对着对话框说一句话,系统就能生成报表、审批流程、甚至写 SQL 查数据。
上线三个月后,他告诉我:
“员工用了两周就放弃了。现在那个系统成了公司最贵的摆设。”
我问他:系统出 Bug 了?
他说:不是。是系统不会变聪明。
第一个月,Agent 回答问题的准确率大概 70%。第二个月还是 70%。第三个月,员工发现问同样的问题,得到的答案一模一样——系统完全没有从实际使用中学到任何东西。
“它就是个会说话的自动化脚本。”
这句话戳中了一个很多人不愿承认的事实:
今天市面上 90% 的"企业 Agent",本质上只是给 LLM 套了个聊天框。
一、问题的本质
企业软件的演进经历了三个阶段:
阶段一:功能驱动 (2000-2015)
┌─────────────────────────────┐
│ ERP / CRM / OA │
│ ┌─────┐ ┌─────┐ ┌─────┐ │
│ │功能1│ │功能2│ │功能3│ │
│ └─────┘ └─────┘ └─────┘ │
│ 人适应系统,流程固定 │
└─────────────────────────────┘
阶段二:数据驱动 (2015-2023)
┌─────────────────────────────┐
│ BI / Dashboard / Analytics │
│ ┌─────────────────────────┐│
│ │ 数据看板 + 报表 ││
│ └─────────────────────────┘│
│ 系统提供洞察,人做决策 │
└─────────────────────────────┘
阶段三:行动驱动 (2024-)
┌─────────────────────────────┐
│ AI Agent / AI Workforce │
│ ┌─────────────────────────┐│
│ │ 理解意图 → 执行行动 ││
│ │ 获取反馈 → 持续优化 ││
│ └─────────────────────────┘│
│ 系统适应人,流程动态生成 │
└─────────────────────────────┘
大多数公司以为自己在做阶段三,实际上只是给阶段一加了个对话框。
核心问题在于:他们只抓住了 Agent 的一半能力。
二、双手机制框架
企业级 Agent 真正落地,必须同时抓住两只手。
我称之为 双手机制(Two-Hand Framework):
┌─────────────────────────────┐
│ 企业级 AI Agent │
│ │
┌───────────┤ ├───────────┐
│ │ │ │
┌────▼────┐ │ ┌───────────────┐ │ ┌────▼────┐
│ 左 手 │ │ │ 通用大脑 │ │ │ 右 手 │
│ │ │ │ (LLM) │ │ │ │
│ Coding │◄─────┘ └───────┬───────┘ └─────►│ RL │
│ │ │ │ │
│ 行动力 │ │ │ 进化力 │
└────┬────┘ │ └────┬────┘
│ │ │
▼ ▼ ▼
┌───────────┐ ┌───────────────┐ ┌─────────────┐
│ Tool Call │ │ Reasoning │ │ Reward │
│ API Call │ │ Planning │ │ Feedback │
│ Workflow │ │ Memory │ │ Policy Opt │
│ Browser │ │ Context │ │ Online │
│ MCP │ └───────────────┘ │ Learning │
│ SQL/Code │ └─────────────┘
└───────────┘ │
│ │
▼ ▼
┌───────────────────────────────────────────────────────────────┐
│ 企业数据飞轮 │
│ │
│ 用户行为 → Agent执行 → 结果反馈 → Reward → 策略优化 → 更强Agent │
│ │
└───────────────────────────────────────────────────────────────┘
左手:LLM 的强编码能力(Coding / Tool Use)
这是 生产力引擎。
大模型已经不只是"写代码",而是在:
- 自动理解需求
- 自动调用工具
- 自动写 workflow
- 自动生成 API / SQL / 页面
- 自动 Debug / Refactor
- 自动连接企业系统
本质上:
Agent = 会自己操作软件的"数字员工"
过去企业软件的问题是:
| 维度 | 传统软件 | Agent 驱动 |
|---|---|---|
| 交互方式 | 人适应系统界面 | 系统理解自然语言意图 |
| 流程设计 | 固定流程,IT 开发 | 动态生成,即时编排 |
| 扩展性 | 需要开发新功能 | LLM 自动调用新工具 |
| 交付周期 | 周/月级 | 分钟/小时级 |
| 本质 | 软件是"功能" | 软件是"行动" |
所以企业级 Agent 的第一性原理:
让 LLM 获得"操作世界"的能力。
包括:
- Coding — 生成代码、SQL、配置
- Tool Calling — 调用外部 API 和工具
- Browser — 操作 Web 界面
- MCP — 标准化的工具协议
- Workflow — 编排多步骤任务
- API Orchestration — 连接企业系统
- Memory — 持久化上下文和状态
- Environment Interaction — 读写文件、数据库、消息队列
没有这一层,Agent 永远只是"聊天机器人"。
右手:强化学习能力(RL / Online Learning)
这是 持续变聪明的核心。
很多公司现在的问题是:
- Demo 很惊艳
- 上线后越来越笨
- 无法真正适应企业场景
因为:
Prompt 不是学习。
Prompt 工程本质上是在"调参",而不是在"训练"。你改一千次 prompt,系统也不会在运行过程中自动变好。
企业场景真正复杂的是:
- 多步骤决策 — 一个任务需要 10+ 步操作,每步都有分支
- 长链路任务 — 从需求到交付跨越多个系统和角色
- 模糊目标 — “提高客户满意度"不是明确的指令
- 动态环境 — 业务规则、数据结构、人员权限随时变化
- 组织协同 — 需要跨部门、跨角色的协作
这些靠 prompt 工程搞不定。
必须靠:
- Reward(奖励信号) — 什么结果是好的?
- Feedback(反馈回路) — 执行效果如何?
- Policy Optimization(策略优化) — 如何调整行为?
- Online Learning(在线学习) — 如何在运行中持续改进?
三、工业案例:RL 如何在企业中真正工作
理论说完了,看几个真实的工业级案例。
案例一:淘宝搜索的 RL 排序
淘宝搜索不是靠工程师手动调权重的。
它的排序系统是一个典型的 RL 系统:
用户搜索 "运动鞋"
↓
Agent (排序模型) 给出排序策略
↓
用户点击 / 购买 / 跳过
↓
Reward 计算:
- 点击 = +0.1
- 加购 = +0.5
- 购买 = +1.0
- 跳出 = -0.3
↓
策略梯度更新 (Policy Gradient)
↓
下一次搜索,排序更精准
关键:这个系统每天都在变聪明。双十一的策略和平时不同,大促期间的 reward 函数会动态调整(更看重转化率而非点击率)。
这不是 prompt 工程能做到的。
案例二:抖音推荐系统的在线学习
抖音的推荐系统是另一个 RL 的经典案例。
它的核心机制:
- 实时反馈 — 用户划走一个视频,0.1 秒内就产生一个负 reward
- 在线更新 — 模型不是离线训练好再部署的,而是在线持续更新
- 多目标优化 — 同时优化完播率、互动率、停留时长、负反馈率
结果:
抖音的推荐系统每天处理 数百亿次 决策,每次决策都在产生训练信号。
这就是数据飞轮的力量。
案例三:钉钉智能派单的 RL 优化
在钉钉的客服和工单场景中,派单策略直接影响 SLA(服务等级协议)达成率。
传统方式:按规则派单(轮询、负载均衡、技能匹配)。
RL 方式:
工单到达
↓
Agent 评估:
- 工单类型 / 紧急度 / 客户等级
- 当前客服负载 / 技能匹配度 / 历史处理效率
↓
选择派单策略
↓
结果反馈:
- 响应时间
- 解决时长
- 客户满意度
- 是否升级
↓
Reward = f(响应时间, 满意度, SLA达成)
↓
策略优化:哪种派单方式在什么场景下最优
实际效果:某企业上线 RL 派单后,SLA 达成率从 82% 提升到 94%,平均响应时间缩短 35%。
核心差异:规则系统是静态的,RL 系统是动态适应的。旺季和淡季、新人期和熟练期,策略自动调整。
四、两只手缺一不可
用一个对比表来总结:
| 维度 | 只有 Coding | 只有 RL | Coding + RL (双手机制) |
|---|---|---|---|
| 执行能力 | ✅ 能调用工具、写代码 | ❌ 没有执行手段 | ✅ 完整行动力 |
| 学习能力 | ❌ 不会变聪明 | ✅ 能优化策略 | ✅ 持续进化 |
| 适应性 | ❌ 环境变化就失效 | ⚠️ 能适应但没有执行手段 | ✅ 动态适应 + 执行 |
| 长期价值 | ⚠️ 变成自动化脚本生成器 | ⚠️ 有大脑但没有手脚 | ✅ 形成数据飞轮 |
| 本质 | 工具人 | 理论家 | 数字员工 |
所以企业级 Agent 的终局公式:
LLM = 通用大脑(理解、推理、规划)
Coding = 行动力(操作世界的能力)
RL = 自我进化能力(从经验中学习)
三者缺一不可。
五、如何落地:从 L1 到 L3 的演进路径
很多公司的问题是:想一步到位,结果两手都没抓住。
实际落地需要分阶段演进:
L1: 自动化阶段 (1-3个月)
├── 左手:LLM + Tool Calling + Workflow
├── 右手:人工反馈收集(打标签、评分)
└── 目标:让 Agent 能干活,建立反馈数据基础
L2: 反馈驱动阶段 (3-6个月)
├── 左手:MCP + API Orchestration + Memory
├── 右手:离线 RL(用历史数据训练 reward model)
└── 目标:Agent 开始从历史数据中学习优化
L3: 自主进化阶段 (6-12个月)
├── 左手:全工具链 + 跨系统编排
├── 右手:在线 RL + 实时策略更新
└── 目标:Agent 在运行中持续变聪明,形成数据飞轮
关键原则:
- 先有左手,再有右手 — 没有执行能力,RL 无从谈起
- 先有反馈,再有学习 — 没有 reward 信号,RL 是空转
- 先离线,再在线 — 先用历史数据验证,再上实时学习
- 先单场景,再扩展 — 在一个场景跑通飞轮,再复制到其他场景
六、总结
企业级 Agent 和传统 SaaS 的根本分界线,不在于"有没有 AI”,而在于:
系统能不能在执行中持续变聪明。
传统 SaaS 是静态的——功能写好了就在那里,不会因为你用了 1000 次就变得更好用。
套了聊天框的 Agent 也是静态的——prompt 写好了就在那里,不会因为你问了 1000 次就回答得更准确。
只有同时具备 Coding(行动力) 和 RL(进化力) 的 Agent,才是真正的 AI Workforce:
- 能执行 — 操作软件、调用 API、生成代码
- 能协作 — 跨系统、跨角色、跨部门
- 能学习 — 从反馈中优化策略
- 能进化 — 在运行中持续变聪明
这才是企业数字化从"工具时代"进入"智能体时代"的真正标志。
你在实际落地 Agent 的过程中,是卡在了左手(执行能力)还是右手(学习能力)?欢迎留言讨论。