IM 在 AI 时代的沟通即协同：从 Chatbot 到 Agent 的两层跃迁

上周在钉钉里看到一条消息，让我意识到一个根本性的转变正在发生。

一位产品经理在群里 @AI 助理：「帮我总结一下今天会议的要点。」AI 很快给出了回复。几分钟后，她又 @采购 Agent：「根据这份 PRD，生成采购计划并提交审批。」

同样是 @AI，但两次操作的性质完全不同。第一次是 问一个问题，第二次是 派一个任务。

这个细微的差别，恰恰是 AI 时代 IM（即时通讯）正在发生的最深刻的范式转移： 沟通正在从「对话」演进为「协同」。

AI in IM 的两种身份

要理解这个转变，首先需要看清一个事实：AI 时代的 IM，实际上会演进出两种 AI 身份（Identity）： Chatbot（对话） 和 Agent（执行）。

                AI in IM

           +----------------+
           |      AI        |
           +----------------+
              /          \
             /            \
      Chatbot            Agent
    （Conversation）   （Execution）
            |                 |
       持续聊天              接收任务
       问答、讨论            调用工具
       知识解释              操作系统
       Brain                Hands

这个区分看起来简单，但它决定了 IM 产品形态的演进方向。

第一类：Chatbot（聊天对象）

这是今天大家最熟悉的形态。

当你在群里输入 @AI，然后说「帮我总结一下今天会议」，你得到的是一段对话。AI 更像一个：

助手
Copilot
搜索引擎
顾问

它的本质特征是 以聊天为中心——人不断驱动 AI，AI 基本不会主动执行工作。整个交互的生命周期就是一段 Conversation：一个问题，一个回答，结束。

这种形态已经非常成熟。ChatGPT、Claude、钉钉 AI 助理、Slack AI，都属于这一类。它们的核心价值是 让人与 AI 高效沟通——你问，它答；你想，它帮你想。

但沟通只是协同的第一步。

第二类：Agent（执行对象）

Agent 更像一个数字员工。

当你 @采购 Agent，然后说「根据这个 PRD，生成采购计划，提交审批，同步 ERP，通知供应商」，你派出的不是一次对话，而是一项任务。

Agent 接到任务后会自己工作——它可以运行几十分钟，可以调用 MCP 访问业务系统，可以创建子 Agent 并行处理多个子任务，还可以持续向你汇报进度。

这种形态的生命周期不是 Question → Answer，而是：

Task
 ↓
Planning
 ↓
Execution
 ↓
Artifact

它交付的不是文字回复，而是结果——一份采购计划、一个审批单、一次 ERP 同步、一条供应商通知。

如果说 Chatbot 是 AI 助理，那 Agent 就是 AI 员工。前者帮你想，后者帮你做。

Agent Tag：IM 对 Agent 最自然的入口

那么问题来了：在 IM 里，用户如何触发 Agent？

我认为 Agent Tag 是 IM 对 Agent 最自然的入口。

Slack 已经提出了类似概念（Agent Identity）。当你输入：

@DesignAgent
帮我画首页。

@HRAgent
帮我安排面试。

@FinanceAgent
报销这张发票。

每一个 @Agent 的含义都是： 把一个任务派给某个 Agent。

所以 @Agent 实际上就是 Dispatch Task，而不是 Start Chat。这是和 Chatbot 最大的区别。

Agent Tag 不是 Agent 本身，它是 IM 层面的交互机制——就像你在群里 @某位同事，本质上是在说「这件事交给你了」。Agent Tag 把这个动作从「@人」扩展到了「@数字员工」。

从产品设计的角度看，这种设计非常优雅：

用户不需要学习新的交互范式（@是 IM 最自然的操作）
每个 Agent 有明确的职责边界（DesignAgent 不处理 HR 事务）
任务派发和进度追踪都在 IM 里完成（无需跳转到其他系统）

两者最大的区别

让我们把 Chatbot 和 Agent 的核心差异系统化：

Chatbot	Agent
Conversation	Task
问答	执行
回复消息	交付结果
一轮一轮聊天	长时间运行
人驱动	Agent 自驱
Context 是聊天记录	Context 是工作状态
输出 Text	输出 Artifact（文档、代码、审批、工单等）

一句话总结：

Chatbot 负责思考（Brain），Agent 负责做事（Hands）。

这个区分不是理论推演，它对应着完全不同的技术栈和工程挑战。Chatbot 的核心挑战是 理解意图 和 生成回复；Agent 的核心挑战是 任务规划 、 工具调用 和 结果验证。

如果你在实现 Agent 系统，我在构建高质量订单文档分类器：智能导流到专业 Agent 中讨论过路由层的设计——如何根据意图把任务分发到正确的专业 Agent，这本身就是 Chatbot → Agent 协同的典型场景。

而 Agent 的执行层，则需要理解 MCP、Skills 和工具调用的本质区别（参见 API、MCP 和 Skills：三个概念的本质区别），以及 Agent Loop 的反馈循环机制（参见 Claude Code 自动修正生成代码的原理解析）。

IM 的三层交互模型

实际上，从产品演进来看，我更倾向于不是「两种形态」，而是 三层模型：

IM

① Human
      │
      ▼
② Chatbot（对话AI）
      │
      ▼
③ Agent（执行AI）

这个三层结构对应着一个完整的任务闭环：

Human 发起需求（「帮我发布一个新品」）
Chatbot 理解意图、澄清需求、确认参数（「确认品类、价格区间、库存数量？」）
Agent 执行跨系统、跨流程的具体工作（生成图片、调用 ERP、创建商品、通知运营）

一个真实的例子：

我
 │
 │  "帮我发布一个新品"
 ▼
Chatbot

理解需求
完善Prompt
确认参数

 │
 │ Dispatch
 ▼

@EcommerceAgent

↓

生成图片

↓

生成标题

↓

调用ERP

↓

创建商品

↓

通知运营

↓

Done

在这个流程里：

Chatbot 是用户的 AI 助理，负责理解意图、澄清需求和协同思考
Agent 是企业里的 AI 员工，负责真正完成跨系统、跨流程的工作
Agent Tag 则是 IM 中将任务派发给特定 Agent 的交互机制

三层缺一不可。没有 Chatbot，用户需要自己把模糊需求翻译成精确指令；没有 Agent，需求只能停留在纸面上；没有 Agent Tag，任务派发就需要跳转到其他系统，打断 IM 的协作流。

沟通即协同

如果放到钉钉或 Slack 的未来产品形态里，我会用一句话概括这个范式转移：

Chatbot 让人与 AI 高效沟通；Agent Tag 让人与 AI 高效协作。前者解决「怎么想」，后者解决「怎么做」。

这不仅仅是产品功能的叠加，而是 IM 本质的重新定义。

传统 IM 的核心价值是 人与人沟通——消息传递、信息共享、群组讨论。AI 时代的 IM，核心价值变成了 人与人、人与 AI 的协同——不只是传递信息，而是共同完成任务。

当你在群里 @AI 助理讨论方案，然后 @采购 Agent 执行采购，再 @运营 Agent 发布上架——你完成的不是三次对话，而是一次完整的业务协同。IM 从「沟通工具」变成了「协同平台」。

这个转变的深远影响在于：IM 不再只是企业通讯的基础设施，而是 企业 AI 协作的操作系统。

你在实际工作中，是用 Chatbot 多还是 Agent 多？有没有遇到过两者边界模糊的场景？欢迎留言讨论。

IM AI Agent Chatbot collaboration DingTalk Slack workflow-automation digital-workforce