AI-Agents

用「好同事」模型理解人与 AI 的协作

AI 落地的真正瓶颈不是技术，是你会不会派活

Posted on April 5, 2026 | 1 min | 203 words

想象你团队来了个新同事——聪明、勤快、知识面广，但对你们的业务一无所知。第一天上午你走过去说：“帮我整理一下那个项目的材料。” 没说哪个项目，没说给谁看，没说什么格式，没说什么时候要。

他大概率会交出一份正确但平庸的文档。你看了一眼：“这也太模板了。”

这不是他能力不行，是你没把活派清楚。

现在把"新同事"换成 AI。同样的场景，同样的结果。但大多数人的反应不是"我没说清楚"，而是"AI 不够聪明"。事实上，AI 落地的真正瓶颈不是模型能力，是任务委托能力——一项被严重低估的管理技能。

[Read More]

AI AI-agents 协作管理 prompt-engineering

Agent 是复杂个性化需求的最优解：解决用户自己都说不清的问题

为什么传统软件解决不了的需求，Agent 能解决？因为它不需要你先想清楚

Posted on April 3, 2026 | 2 min | 351 words

上周帮一个客户上线了一个"智能周报助手"。需求方的原话是：“帮我们的销售团队自动生成周报。”

听起来很简单。但往下聊五分钟，你会发现这句话背后藏着至少二十个未定义的决策：周报包含哪些维度？数据从哪来？不同区域的销售负责人关注点一样吗？“好的周报"到底长什么样？客户自己也说不清。

最终的解决方案不是一个固定模板的报表工具，而是一个 Agent——它能根据每个销售负责人的历史偏好、当周数据特征、团队上下文，动态决定周报的结构、重点和措辞。

这件事让我重新思考一个问题：Agent 的核心价值到底是什么？ 不是"自动化”，不是"降本"，而是——它是目前唯一能规模化解决"复杂个性化需求"的技术方案。

[Read More]

AI-agents 产品设计 LLM 个性化需求分析 AI

别用同一把尺子量所有 Agent：按行业和岗位设计评测体系才是正经事

通用任务型 Agent 评测的核心矛盾——以及一套可落地的分层评测框架设计

Posted on March 31, 2026 | 6 min | 1234 words

上个月参加一个 Agent 产品的内部评审，产品经理拿出一张 benchmark 表格：准确率 92%、响应时间 1.2 秒、幻觉率 3%。数字很漂亮，领导很满意。

然后我问了一个问题：“这个 92% 的准确率，是在什么任务上测的？”

回答是一组通用 QA 数据集。

我又问：“你的目标用户是电商运营，你有没有用电商运营真实工作场景的任务来测？”

会议室安静了五秒钟。

这就是今天 Agent 评测的核心矛盾：我们在用"通用考试"的成绩来预测"专业岗位"的表现。 这就像用高考数学成绩来判断一个人能不能当好外科医生——逻辑上不成立，但大家都在这么干。

同一个生意做了四遍：从搜索到Agent，万物皆排序

搜索、广告、推荐、Agent——四代系统的底层逻辑和商业本质，从未改变

Posted on March 30, 2026 | 2 min | 378 words

如果你在过去二十年里分别做过搜索引擎、广告系统、推荐系统，再到今天做AI Agent，你可能会有一个越来越强烈的感觉：这不就是同一个生意吗？

表面上看，Google做搜索、Meta做广告、抖音做推荐、OpenAI做Agent，四个完全不同的产品形态，四个不同的技术栈，甚至四个不同的行业叙事。但如果你把外壳剥掉，盯着底层看，会发现一个令人不安的事实：这四代系统的核心逻辑，从来没有变过。

它们都在做同一件事——在信息过载的世界里，帮用户匹配到最相关的东西，然后从匹配效率的提升中抽税。

企业级 AI 必须设计成出错后可以追责到人

从'AI 做的'到'谁让 AI 这么做的'——构建可追责的 AI 系统

Posted on March 29, 2026 | 3 min | 467 words

上周一个真实案例：某电商公司的 AI Agent 自动调整了 2000 个 SKU 的定价策略，导致部分商品以成本价以下售出，一天亏了 80 万。复盘会上，所有人面面相觑——

运营说：“我没动过，是 AI 自动调的。” 技术说：“模型输出没问题，是数据源有异常。” 数据团队说：“数据是实时抓取的，跟我们无关。”

没有一个人为这 80 万负责。

这不是个例。当 AI 从"辅助工具"升级为"执行主体"，一个被企业严重低估的问题出现了：出了事，找谁？

[Read More]

AI-agents enterprise 安全治理架构设计 accountability

OpenClaw + Claude Code 协同：用 Sub-Agent 执行编程任务并实时同步进度

从 stream-json 到钉钉通知，打通 AI 编程任务的全链路可观测性

Posted on March 28, 2026 | 8 min | 1569 words

你在钉钉里对 AI 助手说：“帮我写一个博客文章”，然后 Agent 回复"好的"——接下来呢？你等了 3 分钟、5 分钟、10 分钟，不知道它在干什么、进展到哪了、是不是卡住了。这是所有 Agent 系统面临的共同问题：编程类耗时任务的进度黑洞。

OpenClaw 通过 Sub-Agent 机制调用 Claude Code 执行编程任务，再借助 stream-json 输出格式和一个轻量级的监控脚本，将任务进度实时同步到钉钉。本文完整拆解这套方案的架构设计和实现细节。

模型和Agent的边界：模型决定上限，Agent决定你能不能稳定拿到这个上限

别让Agent更像人思考，让系统更像机器可靠执行

Posted on March 27, 2026 | 1 min | 184 words

每个Agent开发者都绕不过一个灵魂拷问：模型一直在进化，Agent的价值到底在哪？

GPT-5比GPT-4强，Claude 4比Claude 3强，Gemini 2比Gemini 1强。模型按周迭代、按月跨代，推理更深、上下文更长、幻觉更少。如果模型本身就在变强，我们在模型之上搭的这一层"Agent"——到底是在创造价值，还是在制造冗余？

这个问题不回答清楚，Agent开发就永远在焦虑中摇摆。

[Read More]

AI-agents LLM 架构 AI

To B Agent 失败的根本原因：不是能力问题，是没有把 Agent 变成默认路径

从工具赋能到职责替代——为什么建议型 Agent 注定失败，以及电商场景的破局之道

Posted on March 26, 2026 | 3 min | 517 words

回顾过去两年，无数 To B Agent 项目的墓碑上都刻着同一句话：“技术很好，但业务没用起来。”

技术团队困惑——模型能力明明够了，准确率也达标了，为什么运营就是不用？是培训不够？是界面不好？是 Prompt 没调好？

都不是。真正的原因是：你给了运营"用不用随便"的选择权。而只要有选择权，理性人就会选择不用。

[Read More]

AI-agents enterprise 电商悟空组织变革 product

悟空的真正价值：把LLM变成可治理的执行系统

代理循环 + 工具系统 + 治理护栏 + 可交付资产——知识工作自动化的主流架构范式

Posted on March 25, 2026 | 2 min | 277 words

把 ChatGPT 接入企业系统就能替代人工？这是 2024 年最昂贵的幻觉之一。

如果把传统聊天助手看作"知识与语言能力的放大器"，那么悟空代表了下一个阶段：把语言模型变成可行动、可交付、可治理的工作代理。这不是能力的线性升级，而是系统定位的根本转变——从"回答问题"到"完成工作"。

[Read More]

AI-agents LLM 架构治理悟空

Agent安全是企业安全的新命题——用AI管AI的执行控制体系

从访问控制到执行控制，构建AI Agent时代的实时风险防线

Posted on March 23, 2026 | 2 min | 253 words

当企业开始把越来越多的业务流程交给 AI Agent 自动执行时，一个被严重低估的问题浮出水面：传统安全体系管的是"谁能进来"，但没人管"AI进来之后做了什么"。

这不是一个可以等的问题。Agent 一旦接入企业核心系统，风险就从"入口"转移到了"执行过程"。我们需要的不是又一套传统防火墙，而是一套 AI 原生的执行控制能力——用 AI 来管 AI。

[Read More]

AI-agents 安全企业架构钉钉风险控制