企业知识库新范式:从一亿预算到人在回路

The paradigm shift from billion-yuan knowledge graphs to human-in-the-loop LLM orchestration

上周和一位创业者吃饭,他刚帮一家大型企业做完知识图谱项目的评估。结论让人倒吸一口凉气:要达到替代中级岗位能力的水平,算上数据采集、清洗、标注、图谱构建和持续维护,预算需要一个亿。

企业听完直接搁置了。

这不是个例。过去三年,我见过不下十个类似的项目——企业想做知识库,供应商画了一个「知识图谱+智能问答」的大饼,然后企业发现投入产出比根本算不过账。

但今年情况变了。模型能力的跃迁正在催生一个新范式:不再靠人工标注堆数据,而是让 LLM 做编排,结合企业搜索,人做优化调整和确认。

知识整理的起点也不再是宏大的「企业知识图谱」,而是每个人手边的 Journal——每日工作日记。通过钉钉这样的组织连接工具,个人知识可以自然地流转、沉淀为企业知识。

一、旧范式为什么走不通

1.1 一个亿花在哪里

传统知识图谱项目的成本结构大致如下:

阶段内容占比说明
数据采集文档收集、系统对接10%相对可控
数据清洗去重、格式化、结构化15%人力密集
知识标注实体识别、关系标注、质量校验40%核心瓶颈
图谱构建本体设计、图谱存储15%技术成熟
应用开发问答系统、推荐引擎10%效果不确定
持续维护知识更新、模型迭代10%/年隐性成本

标注环节占了 40%,而且这是持续性成本。企业知识不是静态的——新产品上线、新流程发布、新政策出台,图谱需要不断更新。这意味着标注团队不能解散,要长期养着。

1.2 根本矛盾:知识获取瓶颈

传统范式的核心假设是:知识必须通过人工标注才能结构化。

这个假设导致了几个无解的矛盾:

  • 专家不愿标注:真正懂业务的人没时间做标注,做标注的人不懂业务
  • 标注质量不可控:外包标注的错误率通常在 15-25%,需要多轮校验
  • 知识时效性差:标注周期通常 3-6 个月,等图谱建好,知识已经过时了
  • 长尾知识无人覆盖:80% 的标注精力花在 20% 的高频知识上,长尾永远没人碰
                    传统知识图谱构建流程
    ┌─────────────────────────────────────────────────────┐
    │                                                     │
    │  原始文档 ──→ 人工清洗 ──→ 人工标注 ──→ 图谱构建     │
    │    (海量)    (耗时)      (瓶颈!)      (效果存疑)     │
    │                                                     │
    │  成本: ───────────→ 递增 ──────────────────────→     │
    │  质量: ───────────→ 递减 ──────────────────────→     │
    │  时效: ───────────→ 衰减 ──────────────────────→     │
    │                                                     │
    └─────────────────────────────────────────────────────┘

二、新范式:LLM 编排 + 人在回路

2.1 范式转移的本质

2025-2026 年模型能力的提升,让一个关键假设被推翻了:

知识不再需要人工标注才能结构化。LLM 本身就是一个通用的知识提取和结构化引擎。

新范式的核心逻辑是:

  1. LLM 做初筛和编排:从原始文档中自动提取实体、关系、摘要
  2. 搜索做召回和增强:RAG 架构确保答案有据可查
  3. 人做确认和优化:关键节点由领域专家审核,而非逐条标注

这把 40% 的标注成本砍到了 5% 以下——人只需要做审核,不需要做生产

                    新范式:LLM编排 + 人在回路
    ┌─────────────────────────────────────────────────────┐
    │                                                     │
    │  原始文档 ──→ LLM提取 ──→ 自动结构化 ──→ 知识存储    │
    │    (海量)    (自动)      (自动)        (向量+图谱)   │
    │                  │                                   │
    │                  ▼                                   │
    │             人在回路 ──→ 确认/修正/补充               │
    │             (审核者,非生产者)                        │
    │                                                     │
    │  成本: ───────────→ 递减 ──────────────────────→     │
    │  质量: ───────────→ 递增 ──────────────────────→     │
    │  时效: ───────────→ 实时 ──────────────────────→     │
    │                                                     │
    └─────────────────────────────────────────────────────┘

2.2 「人在回路」的三层模型

我把这个新范式总结为 「知识涌现三层模型」(Knowledge Emergence Layered Model, KELM)

    ┌─────────────────────────────────────────────────┐
    │                                                 │
    │  Layer 3: 企业知识库 (Organizational Knowledge)  │
    │  ┌─────────────────────────────────────────┐    │
    │  │ 已验证、可复用的组织级知识                │    │
    │  │ 来源: Layer 2 的沉淀 + 专家审核          │    │
    │  │ 形态: 结构化FAQ、SOP、最佳实践库         │    │
    │  └─────────────────────────────────────────┘    │
    │              ▲                                   │
    │              │ 审核 + 沉淀                       │
    │  Layer 2: 团队知识流 (Team Knowledge Flow)       │
    │  ┌─────────────────────────────────────────┐    │
    │  │ 项目复盘、技术分享、问题排查记录          │    │
    │  │ 来源: Layer 1 的聚合 + LLM 编排          │    │
    │  │ 形态: 项目Wiki、会议纪要、技术方案        │    │
    │  └─────────────────────────────────────────┘    │
    │              ▲                                   │
    │              │ 聚合 + 编排                       │
    │  Layer 1: 个人Journal (Personal Journal)         │
    │  ┌─────────────────────────────────────────┐    │
    │  │ 每日工作记录、思考片段、问题笔记          │    │
    │  │ 来源: 个人日常工作自然产生                │    │
    │  │ 形态: 日记、备忘录、聊天中的关键信息      │    │
    │  └─────────────────────────────────────────┘    │
    │                                                 │
    └─────────────────────────────────────────────────┘

三层模型的关键洞察:

  • Layer 1 是源头:知识不是被「建设」出来的,而是在日常工作中自然产生的。Journal 是最低摩擦的知识记录方式。
  • Layer 2 是枢纽:LLM 在这里发挥作用——自动从多个人的 Journal 中提取共性话题、关联信息、生成摘要。
  • Layer 3 是结果:经过团队验证的知识自然沉淀为企业资产,不需要专门的知识工程团队。

2.3 技术架构:LLM 如何做编排

新范式的技术核心是 LLM 驱动的编排层(Orchestration Layer)

    ┌──────────────────────────────────────────────────────┐
    │                   用户 (员工/管理者)                   │
    └──────────────────────┬───────────────────────────────┘
                           │ 查询 / 确认 / 反馈
    ┌──────────────────────▼───────────────────────────────┐
    │                  编排层 (Orchestrator)                 │
    │                                                      │
    │  ┌──────────┐  ┌──────────┐  ┌──────────────────┐   │
    │  │ 意图理解  │→│ 路由决策  │→│ 多步推理/工具调用 │   │
    │  └──────────┘  └──────────┘  └──────────────────┘   │
    │       │              │              │                │
    │       ▼              ▼              ▼                │
    │  ┌──────────┐  ┌──────────┐  ┌──────────────────┐   │
    │  │ 向量搜索  │  │ 全文搜索  │  │ 结构化数据查询   │   │
    │  └──────────┘  └──────────┘  └──────────────────┘   │
    └──────────────────────────────────────────────────────┘
    ┌──────────────────────▼───────────────────────────────┐
    │                   知识存储层                          │
    │                                                      │
    │  ┌──────────┐  ┌──────────┐  ┌──────────────────┐   │
    │  │ 向量数据库│  │ 搜索引擎  │  │ 关系型/图数据库  │   │
    │  │ (语义)    │  │ (关键词)  │  │ (结构化关系)     │   │
    │  └──────────┘  └──────────┘  └──────────────────┘   │
    └──────────────────────────────────────────────────────┘

编排层的关键能力:

  1. 意图理解:判断用户是想查知识、贡献知识,还是确认/修正知识
  2. 路由决策:选择最合适的检索方式(向量/全文/结构化)
  3. 多步推理:复杂问题拆解为多步查询,LLM 自动组装答案
  4. 人在回路:答案生成后,关键节点推送给领域专家确认

2.4 成本对比

维度旧范式(知识图谱)新范式(LLM编排+人在回路)
初始投入5000万-1亿200万-500万
年维护成本500万-1000万50万-100万
上线周期6-12个月1-3个月
知识覆盖率20-30%(高频知识)60-80%(含长尾)
知识时效性月级更新日级/实时
对人的依赖专职标注团队领域专家兼职审核

三、从 Journal 到企业知识:钉钉的连接价值

3.1 为什么 Journal 是最佳起点

Journal(工作日记)有几个被严重低估的优势:

  • 零摩擦:不需要额外的知识管理系统,就是每天写几句话
  • 高保真:记录的是当天实际发生的事情,不是事后回忆
  • 有上下文:Journal 天然包含时间、项目、人物等元数据
  • 可追溯:每一条知识都能追溯到具体的时间、人和事件

3.2 钉钉的连接能力

钉钉作为组织协同平台,天然具备连接「人-知识-组织」的能力:

    ┌─────────────────────────────────────────────────┐
    │                                                 │
    │              钉钉组织协同平台                     │
    │                                                 │
    │   ┌──────┐    ┌──────┐    ┌──────────────┐     │
    │   │ 个人  │───→│ 群组  │───→│ 组织知识库    │     │
    │   │Journal│    │讨论/  │    │ 沉淀/检索/   │     │
    │   │ AI辅助│    │共享   │    │ AI问答       │     │
    │   │记录   │    │      │    │              │     │
    │   └──────┘    └──────┘    └──────────────┘     │
    │      │            │             │               │
    │      ▼            ▼             ▼               │
    │   个人知识    团队知识       组织知识             │
    │   (私有)     (半公开)       (公开)               │
    │                                                 │
    └─────────────────────────────────────────────────┘

钉钉的连接价值体现在:

  1. 身份连接:知道知识是谁产生的,在什么组织上下文中产生的
  2. 沟通连接:群聊中的讨论、决策、问题排查,天然就是知识素材
  3. 流程连接:审批、日志、待办,这些流程中产生的信息自动进入知识流
  4. AI 连接:钉钉 AI 可以在 Journal 记录时自动提取关键信息,在群聊中自动总结讨论要点

3.3 一个具体的场景

想象这样一个工作流:

工程师小王今天在 Journal 里记录:「排查了线上 P0 故障,根因是 Redis 连接池耗尽。解决方案是调整 maxActive 参数从 50 到 200,并增加连接泄漏检测。」

钉钉 AI 自动提取了这条记录的关键信息:故障类型(P0)、根因(Redis 连接池)、解决方案(参数调整)。

两周后,另一个团队的工程师遇到类似问题,在钉钉知识库搜索「Redis 连接池」,直接找到了小王的排查记录和解决方案。

团队 leader 看到这条知识被多次引用,点击「沉淀为 SOP」,AI 自动生成了一份标准化的故障排查流程文档。

在这个过程中:

  • 小王没有做任何额外的「知识贡献」动作
  • 没有专职的知识工程师参与
  • 知识从产生到被使用,再到沉淀为组织资产,全程自然流转

四、总结:从「建设」到「涌现」

旧范式的根本错误在于,它把知识当成了一种需要「建设」的工程产物。

但知识不是建出来的,是涌现出来的。

  • 个人在工作中产生经验 → Journal 记录
  • LLM 从 Journal 中提取模式 → 团队知识流
  • 团队在实践中验证知识 → 企业知识库

KELM 模型的核心价值在于:它把知识管理的成本从「一个亿」降到了「几乎为零的边际成本」,同时把知识的时效性从「月级」提升到了「日级」。

这不是技术的渐进优化,而是范式的根本转移。

你的团队是如何做知识管理的?有没有试过从 Journal 开始,让知识自然涌现?欢迎留言讨论。


See also