用「好同事」模型理解人与 AI 的协作

AI 落地的真正瓶颈不是技术,是你会不会派活

想象你团队来了个新同事——聪明、勤快、知识面广,但对你们的业务一无所知。第一天上午你走过去说:“帮我整理一下那个项目的材料。” 没说哪个项目,没说给谁看,没说什么格式,没说什么时候要。

他大概率会交出一份正确但平庸的文档。你看了一眼:“这也太模板了。”

这不是他能力不行,是你没把活派清楚。

现在把"新同事"换成 AI。同样的场景,同样的结果。但大多数人的反应不是"我没说清楚",而是"AI 不够聪明"。事实上,AI 落地的真正瓶颈不是模型能力,是任务委托能力——一项被严重低估的管理技能。

[Read More]

Agent 是复杂个性化需求的最优解:解决用户自己都说不清的问题

为什么传统软件解决不了的需求,Agent 能解决?因为它不需要你先想清楚

上周帮一个客户上线了一个"智能周报助手"。需求方的原话是:“帮我们的销售团队自动生成周报。”

听起来很简单。但往下聊五分钟,你会发现这句话背后藏着至少二十个未定义的决策:周报包含哪些维度?数据从哪来?不同区域的销售负责人关注点一样吗?“好的周报"到底长什么样?客户自己也说不清。

最终的解决方案不是一个固定模板的报表工具,而是一个 Agent——它能根据每个销售负责人的历史偏好、当周数据特征、团队上下文,动态决定周报的结构、重点和措辞。

这件事让我重新思考一个问题:Agent 的核心价值到底是什么? 不是"自动化”,不是"降本",而是——它是目前唯一能规模化解决"复杂个性化需求"的技术方案

[Read More]

别用同一把尺子量所有 Agent:按行业和岗位设计评测体系才是正经事

通用任务型 Agent 评测的核心矛盾——以及一套可落地的分层评测框架设计

上个月参加一个 Agent 产品的内部评审,产品经理拿出一张 benchmark 表格:准确率 92%、响应时间 1.2 秒、幻觉率 3%。数字很漂亮,领导很满意。

然后我问了一个问题:“这个 92% 的准确率,是在什么任务上测的?”

回答是一组通用 QA 数据集。

我又问:“你的目标用户是电商运营,你有没有用电商运营真实工作场景的任务来测?”

会议室安静了五秒钟。

这就是今天 Agent 评测的核心矛盾:我们在用"通用考试"的成绩来预测"专业岗位"的表现。 这就像用高考数学成绩来判断一个人能不能当好外科医生——逻辑上不成立,但大家都在这么干。

[Read More]

同一个生意做了四遍:从搜索到Agent,万物皆排序

搜索、广告、推荐、Agent——四代系统的底层逻辑和商业本质,从未改变

如果你在过去二十年里分别做过搜索引擎、广告系统、推荐系统,再到今天做AI Agent,你可能会有一个越来越强烈的感觉:这不就是同一个生意吗?

表面上看,Google做搜索、Meta做广告、抖音做推荐、OpenAI做Agent,四个完全不同的产品形态,四个不同的技术栈,甚至四个不同的行业叙事。但如果你把外壳剥掉,盯着底层看,会发现一个令人不安的事实:这四代系统的核心逻辑,从来没有变过。

它们都在做同一件事——在信息过载的世界里,帮用户匹配到最相关的东西,然后从匹配效率的提升中抽税。

[Read More]

企业级 AI 必须设计成出错后可以追责到人

从'AI 做的'到'谁让 AI 这么做的'——构建可追责的 AI 系统

上周一个真实案例:某电商公司的 AI Agent 自动调整了 2000 个 SKU 的定价策略,导致部分商品以成本价以下售出,一天亏了 80 万。复盘会上,所有人面面相觑——

运营说:“我没动过,是 AI 自动调的。” 技术说:“模型输出没问题,是数据源有异常。” 数据团队说:“数据是实时抓取的,跟我们无关。”

没有一个人为这 80 万负责。

这不是个例。当 AI 从"辅助工具"升级为"执行主体",一个被企业严重低估的问题出现了:出了事,找谁?

[Read More]

OpenClaw + Claude Code 协同:用 Sub-Agent 执行编程任务并实时同步进度

从 stream-json 到钉钉通知,打通 AI 编程任务的全链路可观测性

你在钉钉里对 AI 助手说:“帮我写一个博客文章”,然后 Agent 回复"好的"——接下来呢?你等了 3 分钟、5 分钟、10 分钟,不知道它在干什么、进展到哪了、是不是卡住了。这是所有 Agent 系统面临的共同问题:编程类耗时任务的进度黑洞

OpenClaw 通过 Sub-Agent 机制调用 Claude Code 执行编程任务,再借助 stream-json 输出格式和一个轻量级的监控脚本,将任务进度实时同步到钉钉。本文完整拆解这套方案的架构设计和实现细节。

[Read More]

模型和Agent的边界:模型决定上限,Agent决定你能不能稳定拿到这个上限

别让Agent更像人思考,让系统更像机器可靠执行

每个Agent开发者都绕不过一个灵魂拷问:模型一直在进化,Agent的价值到底在哪?

GPT-5比GPT-4强,Claude 4比Claude 3强,Gemini 2比Gemini 1强。模型按周迭代、按月跨代,推理更深、上下文更长、幻觉更少。如果模型本身就在变强,我们在模型之上搭的这一层"Agent"——到底是在创造价值,还是在制造冗余?

这个问题不回答清楚,Agent开发就永远在焦虑中摇摆。

[Read More]

To B Agent 失败的根本原因:不是能力问题,是没有把 Agent 变成默认路径

从工具赋能到职责替代——为什么建议型 Agent 注定失败,以及电商场景的破局之道

回顾过去两年,无数 To B Agent 项目的墓碑上都刻着同一句话:“技术很好,但业务没用起来。”

技术团队困惑——模型能力明明够了,准确率也达标了,为什么运营就是不用?是培训不够?是界面不好?是 Prompt 没调好?

都不是。真正的原因是:你给了运营"用不用随便"的选择权。而只要有选择权,理性人就会选择不用。

[Read More]

悟空的真正价值:把LLM变成可治理的执行系统

代理循环 + 工具系统 + 治理护栏 + 可交付资产——知识工作自动化的主流架构范式

把 ChatGPT 接入企业系统就能替代人工?这是 2024 年最昂贵的幻觉之一。

如果把传统聊天助手看作"知识与语言能力的放大器",那么悟空代表了下一个阶段:把语言模型变成可行动、可交付、可治理的工作代理。这不是能力的线性升级,而是系统定位的根本转变——从"回答问题"到"完成工作"。

[Read More]

Agent安全是企业安全的新命题——用AI管AI的执行控制体系

从访问控制到执行控制,构建AI Agent时代的实时风险防线

当企业开始把越来越多的业务流程交给 AI Agent 自动执行时,一个被严重低估的问题浮出水面:传统安全体系管的是"谁能进来",但没人管"AI进来之后做了什么"。

这不是一个可以等的问题。Agent 一旦接入企业核心系统,风险就从"入口"转移到了"执行过程"。我们需要的不是又一套传统防火墙,而是一套 AI 原生的执行控制能力——用 AI 来管 AI

[Read More]