AI 原生产品增长打法：你的预算在烧钱，还是在训练产品？

两周前，一个做 AI 写作 Agent 的朋友约我吃饭，他刚拿了 A 轮，准备砸 200 万投放抖音和小红书。

我顺嘴问了一句：你们 Agent 的复杂任务成功率是多少？

他愣了一下，说：“你这问题问得有点怪，我们看的是 DAU 和留存。”

三个月后我们再见面，他融的钱烧了一半，DAU 涨了三倍，月留存从 18% 掉到了 9%。他叹了口气：“用户来了，但 Agent 还是那个 Agent。”

那一刻我意识到一件事：很多 AI 创业团队还在用 SaaS 时代的增长教科书，跑一个根本不是 SaaS 的生意。

SaaS 时代，“增长"是把一个已经做好的能力卖给更多人。产品在工厂里被打磨完成，运营和投放负责把它推到市场。

AI 原生产品不是这样。它的能力不是出厂时就完整的——是在和用户的每一次交互中被训练出来的。你今天上线的 Agent，三个月后应该比今天聪明 5 倍，否则就死定了。

这意味着增长公式被彻底重写：

增长 = Agent 变聪明的速度（而不是投放预算）

这篇文章想讲清楚两件事：第一，AI 原生增长的三个维度怎么从根上换思路；第二，从 0 到 1 该怎么分四步把这套打法落地。

一、本质问题：你卖的是产品，还是产品的成长曲线？

先把传统 SaaS 和 AI 原生产品的底层差异摆出来。

维度	SaaS 产品	AI 原生产品
能力来源	工程师写死	训练数据驱动
用户角色	消费者	训练参与者
增长杠杆	投放 + 销售	数据飞轮
边际成本	高（人力、算力线性增长）	递减（每个用户都让产品更强）
护城河	功能 + 渠道	能力差距（accuracy gap）
失败模式	卖不出去	卖出去了但不会变聪明

很多团队的认知错配在最后一行——他们以为失败是"获客失败”，其实失败是"成长失败"。

获客失败可以靠多花钱解决，成长失败花再多钱也救不回来，因为问题不在分母（用户数），在分子（每个用户带来的能力增量）。

我朋友的例子就是典型：DAU 涨三倍，但 Agent 的复杂任务成功率没动。新用户进来发现"还是不好用"，于是迅速流失，留存掉一半。投放钱在加速用户对产品的失望速度，而不是产品的进化速度。

这是 AI 原生时代最贵的一种死法：用 SaaS 的钱，烧出一条加速贬值曲线。

二、传统认知里的三个错误对标

在和十几个 AI 创业团队聊过之后，我发现错误总是相似的——他们都在用旧地图找新大陆。

错误 1：把"做功能"当成研发的核心

SaaS 时代的研发节奏是：用户提需求 → PRD → 排期 → 上线。功能数量是研发的产出指标。

AI 原生产品里，功能不是稀缺的——大模型本身就具备绝大多数功能。稀缺的是"能稳定完成复杂任务"的能力。

一个能写代码的 Agent 和一个能"在没有人监督的情况下，独立完成一周开发任务"的 Agent，功能列表上看是同一个东西，但商业价值差 100 倍。后者解决的任务空间大一个数量级，能进入的市场也大一个数量级。

研发不该再问"我们还差什么功能"，而要问"我们 Agent 的智商上限是多少"。

错误 2：把"做客服"当成运营的核心

传统运营的工作是回答用户问题、处理投诉、维护社区情绪。

AI 原生产品里，用户的"投诉"和"纠错"是产品最珍贵的训练数据。一个用户说"这个回答不对，应该是 X"——这条信息如果只进了客服工单系统，那就是浪费；如果进了模型对齐管线，就是黄金。

我见过一家公司，每天有 5000 条用户的差评和修正建议，全部躺在客服系统里没人管。同期他们花 80 万买了一个数据标注外包团队，标的是和用户场景关系不大的公开数据集。这是 2026 年最魔幻的资源错配之一。

运营不该再以"解决用户问题"为终点，而要以"把用户问题转化为对齐信号"为目标。

错误 3：把"转化漏斗"当成数据的核心

SaaS 的数据团队天天看的是漏斗：曝光 → 点击 → 注册 → 激活 → 付费。每一步的转化率是核心指标。

AI 原生产品里，漏斗依然存在，但真正决定生死的是另一条曲线：错误率随时间下降的速度。

如果你的产品 90 天内复杂任务成功率从 40% 涨到 70%，你的漏斗会自动改善——留存上升，付费率上升，口碑传播带动获客。

如果 90 天内成功率纹丝不动，你优化漏斗每一步只能榨出几个百分点，且边际收益迅速递减。

数据团队真正要建的不是漏斗仪表盘，是能力增长仪表盘。

三、新框架：AI 原生增长三维重定义模型

把上面三个错误的解药结构化，就是这个框架。

┌─────────────────────────────────────────────────────────┐
│                                                         │
│            AI 原生增长 三维重定义模型                    │
│                                                         │
├─────────────────────────────────────────────────────────┤
│                                                         │
│   维度        旧目标          →   新目标                │
│   ─────────────────────────────────────────────         │
│                                                         │
│   研发    做功能 (Features)   →   提智商 (Inference)    │
│           关键指标:                                     │
│             复杂任务成功率，而非功能数量                 │
│                                                         │
│   运营    做客服 (Support)    →   做裁判 (Judging)      │
│           关键指标:                                     │
│             高质量反馈量，而非 DAU                      │
│                                                         │
│   数据    转化漏斗 (Funnel)   →   能力飞轮 (Flywheel)   │
│           关键指标:                                     │
│             错误率下降速度，而非转化率                   │
│                                                         │
└─────────────────────────────────────────────────────────┘
                         │
                         ▼
        三维都对齐时，产品进入"自我训练"状态
        用户越多 → 数据越好 → Agent 越聪明
                    → 解决任务越多 → 用户更多

这三个维度不是并列关系，是互为前提的三角。

研发只追求功能数，运营和数据再努力，新增功能也无法被持续优化——因为没有飞轮接住。运营只做客服，研发和数据再努力，模型对齐速度也跟不上——因为反馈信号没被挖出来。数据只看漏斗，研发和运营再努力，决策也会走偏——因为团队的注意力会被错的指标牵着走。

三角任何一条边断掉，整个增长引擎就停转。

下面拆开讲。

3.1 研发：从"做功能"到"提智商"

提智商的核心是提升 Agent 处理长尾任务和多步推理的能力。这两件事直接决定了你的产品能进入多大的市场。

类比一下：GPT-3.5 时代能稳定完成的任务大概是"写一封 200 字的邮件"。Claude Opus 时代能稳定完成的是"读完 100 页 PDF 后写一份结构化分析报告"。任务复杂度上一个台阶，可寻址市场（TAM）至少上一个数量级。

落到具体动作，研发该做的是：

定义清楚"任务"的粒度：你的 Agent 是在做"一句话回答"还是"一周项目"？粒度越大，价值越高，但训练难度越大。
建立任务成功率的客观评测集：不是看用户主观满意度，是看一组固定的复杂任务，每周跑一次，记录通过率
每个版本对比上一个版本：发布的唯一标准是"复杂任务成功率提升了 X%"，不是"上线了 Y 个新 feature"

关键指标：复杂任务成功率（Complex Task Success Rate, CTSR）。

3.2 运营：从"做客服"到"做人类裁判"

把用户从"被服务方"变成"裁判员"，让他们的纠错、打分、修正成为模型对齐信号。

这个本质上是把外包标注团队的工作，让真实用户帮你做。但用户做这事是有条件的：

修正的成本必须极低：不能让用户填三页表格才能反馈一个错误。一键点踩 + 一句话改写就是上限
修正必须看得见效果：用户报告的问题，下个版本要明显修复，否则反馈热情会断崖式下跌
修正必须有正向激励：积分、徽章、提前体验权——任何能让用户"参与训练"产生荣誉感的设计

关键指标：高质量反馈量（High-Quality Feedback Volume, HQFV）。注意是"高质量"，不是总量——一条用户认真改写的回答 = 100 条无脑点踩。

3.3 数据：从"转化漏斗"到"能力飞轮"

把用户的每一次成功操作，沉淀成训练数据，回流到下一版模型。

这件事的难度被严重低估。绝大多数团队的数据栈是"事件埋点 → 数据仓库 → 报表"——天生服务于漏斗分析，而不是模型训练。

要建的是另一套管线：用户行为 → 行为意图标注 → 训练样本 → 模型微调/对齐 → 新版本发布 → 效果测量 → 回到第一步。

关键指标：错误率下降速度（Error Rate Decay Rate, ERDR）。一个健康的 AI 原生产品，应该能画出一条漂亮的下降曲线，斜率越陡越值钱。

四、技术实现：飞轮的最小可运行版本

把上面三个维度落到代码层。下面这段是"能力飞轮"的最小骨架——我把它从我们团队的内部脚手架抽出来简化了一下。

要理解为什么这么写：飞轮不是一个一次性的脚本，是一个持续运行的回路。每个用户行为都要走这个流程：评估质量 → 决定是否纳入训练集 → 更新能力指标 → 触发下一轮训练。

from dataclasses import dataclass, field
from datetime import datetime
from typing import Literal

FeedbackType = Literal["thumbs_up", "thumbs_down", "rewrite", "edit"]


@dataclass
class UserInteraction:
    """A single user-agent exchange, the atomic unit of the flywheel."""
    user_id: str
    task_description: str
    agent_output: str
    user_feedback: FeedbackType | None
    user_correction: str | None
    timestamp: datetime
    task_complexity: int  # 1=trivial, 5=long-horizon multi-step

    @property
    def quality_signal_score(self) -> float:
        """Not all feedback is equal — a rewrite is worth ~50 thumbs_up."""
        if self.user_feedback is None:
            return 0.0
        return {
            "thumbs_up": 1.0,
            "thumbs_down": 2.0,    # negative signal is more informative
            "edit": 25.0,          # user fixed it — almost gold
            "rewrite": 50.0,       # user wrote the right answer — pure gold
        }[self.user_feedback] * self.task_complexity


@dataclass
class CapabilityFlywheel:
    """The closed loop: interactions become training data become a smarter agent."""
    interactions: list[UserInteraction] = field(default_factory=list)

    def hqfv(self) -> float:
        """High-Quality Feedback Volume — the only ops metric that matters."""
        return sum(i.quality_signal_score for i in self.interactions)

    def ctsr(self, complexity_threshold: int = 3) -> float:
        """Complex Task Success Rate — the only R&D metric that matters."""
        complex_tasks = [i for i in self.interactions
                         if i.task_complexity >= complexity_threshold]
        if not complex_tasks:
            return 0.0
        successes = sum(1 for i in complex_tasks
                        if i.user_feedback in ("thumbs_up", None))
        return successes / len(complex_tasks)

    def training_corpus(self) -> list[dict[str, str]]:
        """What feeds the next fine-tune — only corrections, never raw outputs."""
        return [
            {"prompt": i.task_description, "completion": i.user_correction}
            for i in self.interactions
            if i.user_correction is not None
        ]

    def burn_or_train_ratio(self, ad_spend_usd: float) -> float:
        """The single most important question: is the budget burning or training?
        Returns USD spent per high-quality training signal acquired.
        Lower = healthier. Above $100 = you're burning, not training.
        """
        signals = self.hqfv()
        return ad_spend_usd / signals if signals > 0 else float("inf")


if __name__ == "__main__":
    flywheel = CapabilityFlywheel(interactions=[
        UserInteraction("u1", "summarize this 50-page PDF", "...", "rewrite",
                        "the corrected summary", datetime.now(), task_complexity=5),
        UserInteraction("u2", "what's 2+2", "4", "thumbs_up", None,
                        datetime.now(), task_complexity=1),
    ])
    print(f"CTSR: {flywheel.ctsr():.1%}")
    print(f"HQFV: {flywheel.hqfv():.1f}")
    print(f"Burn ratio: ${flywheel.burn_or_train_ratio(10000):.2f} per signal")
    # 如果这个值 > 100，你不是在做 AI 原生增长，你是在做传统投放

# generated by hugo AI

几个关键点要解释清楚：

第一，quality_signal_score 把不同类型反馈做了非线性加权。一个用户主动 rewrite 一段答案，价值是一次 thumbs_up 的 50 倍——因为它直接产出了"理想输出"，可以作为 SFT 训练样本。绝大多数团队把所有反馈一视同仁地丢进数据库，这是巨大的浪费。

第二，burn_or_train_ratio 是我自己常用的健康度指标。把每月广告支出除以高质量反馈分数，得到"每个训练信号的获取成本"。这个值小于 10 美金，说明增长在自我加强；超过 100 美金，说明你在做传统投放，AI 只是个噱头。

第三，training_corpus 只采集"用户做了修正的样本"，不采集原始输出。原因是：原始输出可能正好是错的，盲目用它训练会让模型固化错误。只有被人类裁判过的数据，才是飞轮燃料。

五、框架 × 技术：四步增长路径打穿市场

把三维框架对齐到模型训练生命周期，AI 原生产品的增长路径就清晰了——它和大模型本身的训练阶段是同构的。

   阶段        模型类比         用户角色          关键动作
─────────────────────────────────────────────────────────────
   ①  Demo    Pre-training    旁观者           用强能力打爆认知
   ②  内测    SFT             专家训练员       让 KOL 喂高质量数据
   ③  公测    RLHF            裁判员           普通用户大规模纠错
   ④  生态    Multi-Agent     Agent 创造者     用户自己造 Agent

   时间轴 ───────────────────────────────────────────────►
            T+0      T+3 个月      T+9 个月       T+18 个月

5.1 Demo 引爆：用强能力打爆认知

第一阶段不是"做小做精"，是"展示一个让人震惊的能力"。

ChatGPT 的爆发不是因为它好用——2022 年底它其实挺难用的——而是因为它展示了一个让普通人下巴掉下来的能力。Sora、Cursor、Claude Code 都是同一个剧本：用一个让人震惊的 demo 撕开认知，建立"这事可以做到"的预期。

这个阶段不要追求商业化，不要追求用户数，追求的是"被讨论的频次"。一个 demo 视频在推特和 B 站被反复转发，价值远高于 1 万个付费用户。

5.2 小圈子打磨：用专家用户喂数据（SFT）

第二阶段引入一小批高质量用户——通常是行业 KOL、技术发烧友、早期种子。他们的特点是愿意花时间反馈、修正、提建议。

这个阶段对应 SFT（Supervised Fine-Tuning）：你用少量但高质量的样本，把模型的能力定向打磨到某个垂直场景。

数量不重要，质量极其重要。100 个深度参与的种子用户，胜过 10000 个浅尝辄止的下载量。

警惕的反模式：在这个阶段就开始投放。投放进来的普通用户，反馈质量低，会污染你的训练信号。SFT 阶段的纯净度，决定了后续 RLHF 阶段的天花板。

5.3 大规模纠错：用普通用户做反馈（RLHF）

第三阶段才能放大规模。这时模型在小圈子打磨过的能力已经稳定，可以承接大流量。

这个阶段对应 RLHF（Reinforcement Learning from Human Feedback）：让大量普通用户通过点踩、点赞、修正，让模型在更广泛的真实场景里持续对齐。

这个阶段的关键设计是降低反馈成本。任何需要用户多走一步的反馈机制都是失败的。理想状态是：用户在正常使用流程中，反馈数据自然产生。

例如：一个 AI 写作产品，用户最终发布的版本和 Agent 给出的初稿之间的 diff，就是天然的对齐信号——不需要用户主动做任何事。

5.4 生态扩张：用户创造 Agent（Multi-Agent）

第四阶段是终局：让用户基于你的能力底座，创造他们自己的 Agent。

这个阶段对应 Multi-Agent 时代：你不再是单一产品，而是一个 Agent 操作系统。每个用户创造的 Agent 都在贡献新的训练数据、新的使用场景、新的能力边界。

OpenAI 的 GPTs 和 Anthropic 的 Claude Skills 都是在试这条路。这个阶段做对的公司，护城河会指数级加深——因为别人复制你的功能容易，复制你的生态几乎不可能。

六、最常见的两个落地坑

我把团队最近半年踩过的坑总结成两条，供参考。

坑 1：把第三阶段当第二阶段做

最常见的错误是产品还没经过 SFT 阶段的小圈子打磨，就直接砸钱做 RLHF 阶段的大规模投放。

后果：大量普通用户进来发现产品不好用，给出的反馈大部分是"这个不行"——这种粗粒度的负反馈对模型训练几乎没用，但会拖累产品口碑。

正确节奏：先用 100 个种子用户把 CTSR 打到 60% 以上，再启动大规模投放。否则就是把钱倒进一个漏的桶里。

坑 2：用 SaaS 的运营 KPI 考核 AI 团队

很多公司把 AI 产品塞给原来的 SaaS 团队管，KPI 还是 DAU、MAU、付费转化。

这套 KPI 直接导向"短期获客 + 留存优化"，但 AI 原生产品需要的是"长期数据飞轮 + 能力对齐"。两者经常冲突——做对长期能力的事，短期 DAU 可能下降。

如果不重新设计 KPI，团队会本能地选短期目标，飞轮永远转不起来。

七、升维总结：每一个用户进来时，问自己一个问题

回到我那个朋友的故事。

他烧的钱并不冤——冤的是他烧的方式。同样的 200 万，如果一半投在挑选 200 个深度种子用户、一半投在搭建用户反馈→数据清洗→模型对齐的管线，三个月后他的 Agent 会真的变聪明，留存曲线会反过来上扬。

AI 原生增长和 SaaS 增长有一个根本不同：

SaaS 时代，用户是收入；AI 时代，用户是燃料。

SaaS 时代你卖一份能力给一个用户，能力不变；AI 时代你卖一份能力给一个用户，能力会因为这个用户变得更强。如果你没有让能力变强的机制，你就是在贱卖一个会过期的资产。

所以每次有新用户进来，你只需要问自己一个问题：

这个新增的用户，是在消耗资源，还是在训练我的产品？

只有后者，才是 AI 原生增长。

如果你做不到后者，无论你的 PPT 写得多漂亮，你做的本质上还是一个 SaaS 公司——只不过用了 AI 做卖点而已。AI 不是你的产品，是你的成本。这种公司在 2026-2027 年这个窗口期，会被真正做对的玩家迅速碾过。

你的产品现在处在哪一个阶段？三维框架里哪一维最薄弱？欢迎在评论里聊聊你团队踩过的坑。