AI 时代的核心竞争力：提问能力

最近钉钉内部做了一次 AI 能力摸底。结果出乎很多人意料——那些平时代码写得最溜、技术栈最广的工程师，在解决客户问题的 AI 协同效率上反而不如几个产品同学和前线服务客户的同学。

我观察了一个细节：区分高下最明显的指标，不是 prompt 写得有多长多花哨，而是他们向 AI 提出的问题本身的质量。

技术强的同学倾向于问：“帮我写一个 Python 脚本，读取 CSV 文件，按日期分组，输出统计报表。"——这是执行指令，不是提问。

而得分最高的一个产品同学问的是：“我现在有一个用户行为日志，想找出哪些功能改版后使用率下降了。你觉得我应该从哪些维度分析？有什么常见的分析陷阱？"——这是真正的提问，它打开了一个探索空间。

这个观察让我意识到一个反直觉的判断：评估一个人是否是 AI 人才，最可靠的指标不是他会用多少 AI 工具，而是他提问的能力。

一、先搞懂两个系统：你大脑里的"兔子"和"乌龟”

在讨论提问能力之前，我们需要先理解一个认知科学的基础框架。诺贝尔经济学奖得主丹尼尔·卡尼曼在《思考，快与慢》中提出，人类大脑有两套思考系统：

  ┌─────────────────────────────────────────────────┐
  │          你大脑里住着两只动物                      │
  ├─────────────────────────────────────────────────┤
  │                                                 │
  │   🐰 兔子（System 1 — 快思考）                   │
  │   ─────────────────────────                     │
  │   • 自动、直觉、毫不费力                         │
  │   • 瞬间反应，并行处理                           │
  │   • 例子：看到 2+2 立刻知道是 4                  │
  │         识别熟人的脸                             │
  │         急刹车避险                               │
  │                                                 │
  │   🐢 乌龟（System 2 — 慢思考）                   │
  │   ─────────────────────────                     │
  │   • 有意识、理性、需要集中注意力                  │
  │   • 缓慢、逐步推理、串行处理                     │
  │   • 例子：计算 17 × 24                          │
  │         填写税务表格                             │
  │         在嘈杂房间里专注听某人说话               │
  │                                                 │
  └─────────────────────────────────────────────────┘

来做个经典测试：

球拍 + 球 = $1.10，球拍比球贵 $1.00，球多少钱？

你的兔子（System 1）会脱口而出 $0.10。

但这是错的。让你的乌龟（System 2）介入一下：

设球 = x，球拍 = x + 1.00
x + (x + 1.00) = 1.10
2x = 0.10 → x = $0.05

关键点：我们日常 95% 的行为由兔子主导，乌龟通常只是在"打补丁"或"背书”。大脑天生爱偷懒——因为乌龟模式太耗能了。

1.1 LLM 也有"兔子"和"乌龟"

有趣的是，大语言模型恰好完美映射了这个框架。

LLM 的"兔子"（基础模式）：

LLM 的底层架构 Transformer 本质上是一个超级联想引擎。它基于训练数据中的统计规律，预测下一个最可能出现的词。

  输入: "天空是"
  LLM (兔子模式): "蓝色的"  ← 基于概率，瞬间输出

  输入: "农夫有10个苹果，给邻居3个，又买5个，现在有几个？"
  LLM (兔子模式): "12个"    ← 可能对可能错，纯直觉

这和人类的 System 1 几乎一模一样：快速、直觉、基于模式匹配、容易出错。LLM 的"幻觉"问题，本质上就是兔子跑太快、乌龟没跟上。

LLM 的"乌龟"（推理模式）：

研究界发现，只需一句简单的提示词，就能唤醒 LLM 的"乌龟"：

  输入: "农夫有10个苹果，给邻居3个，又买5个，现在有几个？
         请一步一步思考。"
  LLM (乌龟模式):
    "让我逐步思考：
     初始有 10 个苹果
     给邻居 3 个 → 10 - 3 = 7 个
     又买了 5 个 → 7 + 5 = 12 个
     答案：12 个"

这句 “请一步一步思考”（Let’s think step by step）就是 AI 领域著名的 Chain-of-Thought（CoT） 技术。它让 LLM 从 System 1 的直觉模式切换到 System 2 的推理模式，在数学、逻辑、复杂规划等任务上准确率大幅提升。

1.2 两种模式的对比

维度	LLM 兔子（System 1）	LLM 乌龟（System 2）
触发方式	默认模式	需要 prompt 或专用模型引导
速度	毫秒~秒级	秒~分钟级
算力消耗	低	高（可能 10-100 倍）
适用场景	日常问答、创意脑暴、翻译	数学推理、代码生成、复杂决策
典型代表	GPT-4o、Claude 标准模式	OpenAI o1/o3、DeepSeek-R1
弱点	幻觉、逻辑断裂	过度思考、简单问题反而答错

1.3 核心洞察：提问 = 系统路由

到这里你应该明白了：你向 AI 提出的问题，本质上是在决定调用它的兔子还是乌龟。

  ┌─────────────────────────────────────────────────┐
  │         提问 = 人机协同的"方向盘"                 │
  ├─────────────────────────────────────────────────┤
  │                                                 │
  │   你的问题 ──→ 决定 ──→ AI 激活哪个系统          │
  │                     决定 ──→ 协作模式            │
  │                     决定 ──→ 输出质量的上限       │
  │                                                 │
  │   好问题 = 精确的系统路由 + 高质量上下文注入      │
  │   烂问题 = 模糊的系统路由 + 噪声上下文            │
  │                                                 │
  └─────────────────────────────────────────────────┘

而更进一步：你提出的问题质量，直接暴露了你自己的兔子还是乌龟在主导这次对话。

如果你的问题是 System 1 级别的（模糊、直觉、没想清楚），AI 大概率也用 System 1 回复你——两个兔子互相打太极，产出不可能好。

如果你的问题是 System 2 级别的（有背景、有约束、有目标），你实际上是在告诉 AI：“我的乌龟已经上线了，现在请你的乌龟也出来工作。”

这就是为什么提问能力是 AI 人才的试金石——它同时暴露了你的思考深度和你驾驭 AI 系统的能力。

二、为什么提问能力是 AI 人才的"试金石"？

2.1 好问题暴露了你的 System 2 是否在运行

当你向 AI 提问时，你的大脑也在同时运作。你提出的问题质量，直接反映了你自己的 System 2 是否参与了问题定义。

来看一个对比：

维度	低质量问题	高质量问题
System 参与度	人 S1（直觉反应）	人 S2（深度思考后提问）
问题结构	单句、模糊、缺少约束	有背景、有约束、有目标
AI 激活模式	不确定（AI 自己猜）	明确指定（你控制 AI 的系统）
输出质量	随机、泛泛而谈	精准、可执行
可迭代性	答非所问 → 放弃	有基线 → 追问 → 收敛

低质量问题的本质是：你的 System 1 直接把模糊的直觉丢给了 AI，连你自己都没想清楚要什么。 AI 收到后也只能用 System 1 给你一个模糊的回答。两个 System 1 互相打太极，产出不可能好。

高质量问题的本质是：你的 System 2 先做了功课——定义了问题边界、约束条件、成功标准——然后精准路由到 AI 的合适系统。 这就是③精密操控或④深度协同推理的起点。

2.2 提问能力 = 问题定义能力

很多人以为"会提问"就是"会写 prompt"。这是一个严重的误解。

  误区: 提问能力 = Prompt Engineering 技巧
         ↓
  本质: 提问能力 = 问题定义能力 × 系统路由能力

  ┌────────────────────────────────────────────┐
  │           提问能力的三个层次                 │
  ├────────────────────────────────────────────┤
  │                                            │
  │  L1: 执行层（"帮我做 X"）                  │
  │      → AI 是工具，你是操作员                │
  │      → 天花板低，可替代性强                 │
  │                                            │
  │  L2: 探索层（"X 有哪些方案？各有什么优劣？"） │
  │      → AI 是顾问，你是决策者                │
  │      → 中等天花板，需要领域知识判断          │
  │                                            │
  │  L3: 定义层（"我面临 Y 约束下的 X 问题，     │
  │      成功标准是 Z，你认为我可能忽略了什么？"）│
  │      → AI 是协作者，你是架构师              │
  │      → 天花板高，不可替代                  │
  │                                            │
  └────────────────────────────────────────────┘

L1 的人把 AI 当搜索引擎或代码生成器用。他们的提问是命令式的，AI 的输出是确定性的但也是平庸的。

L2 的人开始把 AI 当智库用。他们会问对比性问题、探索性问题，但往往缺少约束条件，导致 AI 给出"正确的废话"。

L3 的人把 AI 当协作者用。他们的问题包含：问题定义 + 约束条件 + 成功标准 + 盲区探测。这种提问方式要求提问者自己先有深度思考——你不可能提出 L3 级别的问题，如果你自己没在 System 2 模式下认真想过这个问题。

2.3 提问能力是"可观测"的

为什么我说提问能力是最可靠的判断指标？因为它有一个独特属性：它是可观测的，且难以伪装。

  其他"AI 能力"指标的缺陷:
  ┌─────────────────────────────────────────┐
  │ 指标              │ 问题                │
  ├───────────────────┼─────────────────────┤
  │ 会用多少 AI 工具   │ 工具多≠用得好      │
  │ Prompt 模板收藏量  │ 收藏≠理解≠会用     │
  │ AI 生成内容数量    │ 数量≠质量          │
  │ 技术栈广度         │ 和 AI 协同无关      │
  │ 论文阅读量         │ 理论≠实践          │
  └───────────────────┴─────────────────────┘

  提问能力的优势:
  ┌─────────────────────────────────────────┐
  │ ✅ 直接暴露思维深度（System 2 参与度）    │
  │ ✅ 反映领域知识水平（能否定义约束条件）    │
  │ ✅ 体现元认知能力（是否知道自己不知道什么）│
  │ ✅ 实时可观测（一次对话就能判断）         │
  │ ✅ 难以伪装（L3 问题需要真实思考支撑）    │
  └─────────────────────────────────────────┘

你在面试中可以让候选人现场用 AI 解决一个开放性问题。不需要看他用了什么模型、写了多长的 prompt——只看他问了什么、怎么追问、怎么验证 AI 的回答。十分钟就能判断这个人的 AI 协同水平在哪个层级。

三、“提问能力评估模型”（QAM）

基于双系统框架，我提出一个提问能力评估模型（Questioning Ability Model, QAM），用于系统化地评估一个人的 AI 协同水平。

3.1 四个评估维度

  ┌──────────────────────────────────────────────────┐
  │         QAM: Questioning Ability Model            │
  ├──────────────────────────────────────────────────┤
  │                                                  │
  │   ┌──────────┐  ┌──────────┐  ┌──────────┐      │
  │   │ 问题定义  │→│ 系统路由  │→│ 迭代追问  │      │
  │   │  (Depth)  │  │ (Routing)│  │(Iteration)│     │
  │   └──────────┘  └──────────┘  └──────────┘      │
  │        ↑                           ↓             │
  │   ┌──────────┐              ┌──────────┐         │
  │   │ 元认知    │←────────────│ 验证意识  │         │
  │   │(Meta)    │             │(Verify)  │         │
  │   └──────────┘              └──────────┘         │
  │                                                  │
  └──────────────────────────────────────────────────┘

维度	评估什么	高表现	低表现
问题定义深度	能否把模糊需求转化为结构化问题	包含背景、约束、目标、成功标准	一句话模糊描述
系统路由精度	能否判断并引导 AI 使用合适的推理模式	明确要求"逐步推理"/“给出多种方案”/“指出我的盲点”	不指定，让 AI 自由发挥
迭代追问能力	能否基于 AI 回答进行有方向的追问	追问有递进、有交叉验证、有收敛	要么接受要么放弃，没有追问策略
验证意识	是否主动验证 AI 输出的正确性	要求来源、交叉验证、用已知事实测试	全盘接受或全盘否定

3.2 一个真实的评估案例

来看一个实际的对话序列，看看 QAM 如何工作：

场景：评估一个工程师用 AI 设计技术方案的能力。

轮次 1（问题定义）:
  候选人: "我们有个微服务，QPS 从 1000 涨到 50000 了，
          数据库成了瓶颈。有什么优化方案？"
  评估: 问题定义 L2 — 有背景（QPS 增长）和目标（优化），
        但缺少约束（预算？停机窗口？团队规模？）

轮次 2（系统路由）:
  AI: "可以考虑分库分表、缓存、读写分离..."
  候选人: "请从三个维度对比这些方案：实施复杂度、
          对现有代码的侵入性、以及在我们这种读多写少
          场景下的收益。用表格输出。"
  评估: 系统路由 L3 — 明确要求对比维度、指定输出格式，
        引导 AI 进入 System 2 深度分析

轮次 3（迭代追问）:
  AI: [输出对比表格]
  候选人: "你推荐的分库分表方案，sharding key 选用户 ID
          的话，大用户倾斜问题怎么解决？"
  评估: 迭代追问 L3 — 基于 AI 推荐深入追问具体技术风险

轮次 4（验证意识）:
  AI: [给出解决方案]
  候选人: "你说的方案在 MySQL 8.0 上实际验证过吗？
          有没有已知的坑？给我找两个真实案例。"
  评估: 验证意识 L2 — 有验证意识，但依赖 AI 自我验证
        （更好的做法是用自己的知识或独立搜索交叉验证）

综合评分: 问题定义 L2 | 系统路由 L3 | 迭代追问 L3 | 验证意识 L2
总体水平: 中高级 AI 协同能力

这个候选人展现了很强的 System 2 驱动能力——他的追问有方向、有深度、有技术判断力。但他也有改进空间：问题定义时缺少约束条件，验证环节过度依赖 AI 自我报告。

3.3 QAM 评分矩阵

  ┌─────────────────────────────────────────────────────┐
  │              QAM 评分矩阵（1-5 分）                   │
  ├────────┬──────────┬──────────┬──────────┬──────────┤
  │  分数  │ 问题定义  │ 系统路由  │ 迭代追问  │ 验证意识  │
  ├────────┼──────────┼──────────┼──────────┼──────────┤
  │   1    │ 一句话    │ 不指定   │ 不追问   │ 全盘接受  │
  │   2    │ 有背景    │ 模糊指定 │ 随机追问 │ 偶尔质疑  │
  │   3    │ 有约束    │ 明确路由 │ 有方向   │ 要求来源  │
  │   4    │ 有成功标准│ 精准路由 │ 递进追问 │ 交叉验证  │
  │   5    │ 含盲区探测│ 动态切换 │ 收敛到解 │ 独立验证  │
  └────────┴──────────┴──────────┴──────────┴──────────┘

总分 4-8 分：初级（AI 当工具用）总分 9-14 分：中级（AI 当顾问用）总分 15-20 分：高级（AI 当协作者用）

四、总结

回到开头的那个问题：为什么技术最强的工程师反而在 AI 协同上不如产品同学？

答案现在很清楚了——技术能力解决的是"怎么做"（how），但 AI 时代更稀缺的是"问什么"（what to ask）。

产品同学的优势不在于他们更懂 AI，而在于他们更擅长定义问题。他们习惯性地问"用户真正需要什么？““有哪些可能的盲区？““这个方案的假设是什么？"——这些 System 2 级别的提问，天然就能激活 AI 的深度推理能力。

而很多工程师习惯了直接写代码解决问题，他们的 System 2 用在实现上，而不是问题定义上。当 AI 接管了实现层，真正的竞争力上移到了"提出好问题"这一层。

这里有一个更深层的洞察：提出一个好问题，意味着你已经有了这个问题一半的答案。

为什么？因为一个好问题需要你已经做过功课——你理解了问题的背景、界定了约束条件、排除了显而易见的错误方向、甚至隐约看到了答案的轮廓。你能问出 L3 级别的问题，说明你的 System 2 已经跑完了前半程，AI 只需要帮你跑完后半程。

反过来，如果你只能问出 L1 级别的问题，说明你连问题的全貌都没看清，AI 给你的答案也只能是泛泛而谈。好问题本身就是答案的一半。

好消息是：提问能力是可以训练的。理解了双系统框架，你就有了一套"元认知工具”——每次向 AI 提问前，花 3 秒问自己：

“我的兔子还是乌龟在主导这次对话？我想唤醒 AI 的兔子还是乌龟？”

这一个习惯，就能让你的 AI 协同效率上一个台阶。

你在实际工作中见过哪些"好问题"和"坏问题"的典型案例？欢迎留言讨论。