上周一个真实案例:某电商公司的 AI Agent 自动调整了 2000 个 SKU 的定价策略,导致部分商品以成本价以下售出,一天亏了 80 万。复盘会上,所有人面面相觑——
运营说:“我没动过,是 AI 自动调的。” 技术说:“模型输出没问题,是数据源有异常。” 数据团队说:“数据是实时抓取的,跟我们无关。”
没有一个人为这 80 万负责。
这不是个例。当 AI 从"辅助工具"升级为"执行主体",一个被企业严重低估的问题出现了:出了事,找谁?
[Read More]上周一个真实案例:某电商公司的 AI Agent 自动调整了 2000 个 SKU 的定价策略,导致部分商品以成本价以下售出,一天亏了 80 万。复盘会上,所有人面面相觑——
运营说:“我没动过,是 AI 自动调的。” 技术说:“模型输出没问题,是数据源有异常。” 数据团队说:“数据是实时抓取的,跟我们无关。”
没有一个人为这 80 万负责。
这不是个例。当 AI 从"辅助工具"升级为"执行主体",一个被企业严重低估的问题出现了:出了事,找谁?
[Read More]你在钉钉里对 AI 助手说:“帮我写一个博客文章”,然后 Agent 回复"好的"——接下来呢?你等了 3 分钟、5 分钟、10 分钟,不知道它在干什么、进展到哪了、是不是卡住了。这是所有 Agent 系统面临的共同问题:编程类耗时任务的进度黑洞。
OpenClaw 通过 Sub-Agent 机制调用 Claude Code 执行编程任务,再借助 stream-json 输出格式和一个轻量级的监控脚本,将任务进度实时同步到钉钉。本文完整拆解这套方案的架构设计和实现细节。
每个Agent开发者都绕不过一个灵魂拷问:模型一直在进化,Agent的价值到底在哪?
GPT-5比GPT-4强,Claude 4比Claude 3强,Gemini 2比Gemini 1强。模型按周迭代、按月跨代,推理更深、上下文更长、幻觉更少。如果模型本身就在变强,我们在模型之上搭的这一层"Agent"——到底是在创造价值,还是在制造冗余?
这个问题不回答清楚,Agent开发就永远在焦虑中摇摆。
[Read More]回顾过去两年,无数 To B Agent 项目的墓碑上都刻着同一句话:“技术很好,但业务没用起来。”
技术团队困惑——模型能力明明够了,准确率也达标了,为什么运营就是不用?是培训不够?是界面不好?是 Prompt 没调好?
都不是。真正的原因是:你给了运营"用不用随便"的选择权。而只要有选择权,理性人就会选择不用。
[Read More]把 ChatGPT 接入企业系统就能替代人工?这是 2024 年最昂贵的幻觉之一。
如果把传统聊天助手看作"知识与语言能力的放大器",那么悟空代表了下一个阶段:把语言模型变成可行动、可交付、可治理的工作代理。这不是能力的线性升级,而是系统定位的根本转变——从"回答问题"到"完成工作"。
[Read More]当企业开始把越来越多的业务流程交给 AI Agent 自动执行时,一个被严重低估的问题浮出水面:传统安全体系管的是"谁能进来",但没人管"AI进来之后做了什么"。
这不是一个可以等的问题。Agent 一旦接入企业核心系统,风险就从"入口"转移到了"执行过程"。我们需要的不是又一套传统防火墙,而是一套 AI 原生的执行控制能力——用 AI 来管 AI。
[Read More]2026 年,一个事实已经无法忽视:模型训练不再是一项研究活动,而是一项系统工程。
预训练需要万卡集群和 PB 级数据管线,强化学习需要奖励模型和 RLHF/DPO 的工程化流水线,推理优化涉及量化、蒸馏、speculative decoding 等一整套工具链,Agent 能力构建则横跨 function calling、长上下文、规划与工具使用的多维调优。任何一个方向的突破,如果不能在其他环节配合落地,就只是一篇论文,不是一个产品。
这意味着什么?模型本身正在变成标准化基础设施。 就像今天没有哪家 SaaS 公司拿"我们用了 PostgreSQL"当竞争优势一样,未来也不会有哪家 Agent 公司仅靠"我们微调了一个更好的模型"赢得市场。
那么 To B Agent 创业的制胜变量到底是什么?
[Read More]软件行业有一个永恒的矛盾:标准化产品满足不了个性化需求,定制开发又贵得离谱。每家企业都想要"适合自己的办公系统",但 SaaS 只能给你 80% 的功能,剩下 20% 要么忍着,要么花十倍的钱去定制。
钉钉的 CLI 化开放正在改变这个游戏规则。当钉钉的消息、日历、审批、文档、通讯录等能力都可以通过命令行接口被 AI Agent 直接调用时,一个新范式浮现了:过去需要写代码、做定制、走项目的办公需求,现在可以用自然语言描述,由 AI 用 Token 来交付。
[Read More]Karpathy 在 2026 年 3 月开源了 autoresearch,两周内收获近 5 万 Star。项目本身很简单——让 AI Agent 自动修改 LLM 训练代码、跑实验、看指标、保留好的、丢弃差的,一夜循环 100 轮。但简单的背后藏着一个深刻的范式转移:在 AI 时代,人的角色从"做实验的人"变成了"设计实验规则的人",而试错循环本身,交给 Token 去完成。
这不只是 AI 研究的事。任何可以量化评估、快速迭代的业务场景,都可以套用这个范式。
[Read More]在上一篇文章中,我从 Karpathy 的 autoresearch 项目提炼了一个范式:人写规则,Token 做实验。我们用 AI 客服 Prompt 优化作为案例,验证了这个范式在业务场景中的可行性。但那个方案有一个前提——你需要预先准备评估数据集。
OpenClaw 的场景让我意识到,还有一种更彻底的可能:Agent 用自己的真实执行数据作为评估信号,在用户无感知的情况下持续自我优化。 不需要人工标注测试集,不需要离线批处理,每一次真实使用都是一条训练数据。
[Read More]