Agent 是复杂个性化需求的最优解:解决用户自己都说不清的问题

为什么传统软件解决不了的需求,Agent 能解决?因为它不需要你先想清楚

上周帮一个客户上线了一个"智能周报助手"。需求方的原话是:“帮我们的销售团队自动生成周报。”

听起来很简单。但往下聊五分钟,你会发现这句话背后藏着至少二十个未定义的决策:周报包含哪些维度?数据从哪来?不同区域的销售负责人关注点一样吗?“好的周报"到底长什么样?客户自己也说不清。

最终的解决方案不是一个固定模板的报表工具,而是一个 Agent——它能根据每个销售负责人的历史偏好、当周数据特征、团队上下文,动态决定周报的结构、重点和措辞。

这件事让我重新思考一个问题:Agent 的核心价值到底是什么? 不是"自动化”,不是"降本",而是——它是目前唯一能规模化解决"复杂个性化需求"的技术方案

[Read More]

AI的MaaS层最核心的能力:把一个不稳定的概率接口,变成一个可运营的服务

Model as a Service不是套壳API,而是AI应用从Demo到生产的关键基础设施

很多人对MaaS(Model as a Service)的理解停留在"套一层API"——把OpenAI的接口包一下,加个Key管理,做个用量统计,就叫MaaS了。如果这就是MaaS的全部,那它确实没什么技术含量,随便一个API Gateway就能干。

但现实是:几乎所有在生产环境跑AI应用的团队,最终都会自建或依赖一个MaaS层。 不是因为他们闲,而是因为裸调模型API在生产环境里根本撑不住。

MaaS层真正要解决的问题是:把一个概率性的、无状态的、昂贵的模型API调用,变成一个可靠的、可观测的、成本可控的服务。

[Read More]

模型和Agent的边界:模型决定上限,Agent决定你能不能稳定拿到这个上限

别让Agent更像人思考,让系统更像机器可靠执行

每个Agent开发者都绕不过一个灵魂拷问:模型一直在进化,Agent的价值到底在哪?

GPT-5比GPT-4强,Claude 4比Claude 3强,Gemini 2比Gemini 1强。模型按周迭代、按月跨代,推理更深、上下文更长、幻觉更少。如果模型本身就在变强,我们在模型之上搭的这一层"Agent"——到底是在创造价值,还是在制造冗余?

这个问题不回答清楚,Agent开发就永远在焦虑中摇摆。

[Read More]

悟空的真正价值:把LLM变成可治理的执行系统

代理循环 + 工具系统 + 治理护栏 + 可交付资产——知识工作自动化的主流架构范式

把 ChatGPT 接入企业系统就能替代人工?这是 2024 年最昂贵的幻觉之一。

如果把传统聊天助手看作"知识与语言能力的放大器",那么悟空代表了下一个阶段:把语言模型变成可行动、可交付、可治理的工作代理。这不是能力的线性升级,而是系统定位的根本转变——从"回答问题"到"完成工作"。

[Read More]

人写规则,Token做实验:从Karpathy的autoresearch看AI应用优化新范式

把人从试错循环中解放出来,用Token一夜跑完500轮实验

Karpathy 在 2026 年 3 月开源了 autoresearch,两周内收获近 5 万 Star。项目本身很简单——让 AI Agent 自动修改 LLM 训练代码、跑实验、看指标、保留好的、丢弃差的,一夜循环 100 轮。但简单的背后藏着一个深刻的范式转移:在 AI 时代,人的角色从"做实验的人"变成了"设计实验规则的人",而试错循环本身,交给 Token 去完成。

这不只是 AI 研究的事。任何可以量化评估、快速迭代的业务场景,都可以套用这个范式。

[Read More]

悟空是AI时代的淘宝:Token消费的多快好省

Agent工程的终极目标,是对模型Token消耗的多快好省优化

1962年,一位伟人为中国工业发展题写了"鼓足干劲,力争上游,多快好省地建设社会主义"。六十多年后,当我们审视AI Agent工程的核心挑战时,会发现一个惊人的对称:Agent工程的终极优化目标,本质上就是对模型Token消耗的"多快好省"。

淘宝用十五年把"多快好省"刻进了中国零售的DNA——商品要多、物流要快、品质要好、价格要省。而今天的AI Agent Runtime,正在用同一套逻辑重塑Token消费——模型类型要、响应速度要、完成效果要、使用成本要

悟空——孙悟空七十二变(多)、筋斗云十万八千里(快)、金箍棒降妖除魔(好)、一根毫毛变千猴(省)。一个优秀的Agent Runtime,就是AI时代的淘宝,Token世界的悟空。

[Read More]

企业专属模型:让企业放心调用大模型的架构最佳实践

从共享 API 到私有化部署——五种架构模式解决'数据会不会被拿去训练'的终极顾虑

和企业客户聊 AI 落地,十次有九次会被问到同一个问题:“我们调用你们的大模型,数据会不会被拿去训练?”

这个问题背后的焦虑是真实的。企业的客户数据、商业机密、内部文档、代码仓库——这些是企业的核心资产。把它们发送给一个外部的大模型 API,本质上就是把家底给别人看了一遍。如果这些数据还被用来训练模型,那等于是在免费帮竞争对手提升 AI 能力。

好消息是,这个问题在 2026 年已经有了成熟的解决方案。坏消息是,大多数企业还不知道该怎么选。

[Read More]

让 Agent 更准确地完成任务,关键不在模型,而在环境

干净环境、充足上下文、探索空间、工具能力——Agent 质量的四根支柱

做了一年多 AI Agent 开发,我逐渐形成了一个核心观点:让 Agent 更准确更高质量地完成任务,最关键的不是换一个更强的模型,而是给它一个正确的执行环境。

具体来说,这个"正确的执行环境"包含四个要素:干净的执行环境、充足且正确的上下文、允许自我探索的空间、以及学会使用工具解决问题的能力。

[Read More]

以前人给 AI 造工具,现在 AI 自己造工具

从声明式工具调用到程序化工具调用(PTC),AI Agent 的工具范式正在发生根本性转变

做 AI Agent 开发这一年多来,我经历了一个认知上的转变:以前的默认思路是"我要给 AI 准备好一切工具,让它去调用";而现在,越来越多的场景让我意识到——AI 为了完成任务,会自己造工具。这不是一个隐喻,而是一个正在发生的技术事实。

[Read More]

大模型 Tool Use 准确率可达 99%,但前提是工具足够简单

为什么平台服务 Tools 化的最佳实践是写 CLI

最近在做 Agent 开发时,我发现一个有意思的现象:大模型调用工具的准确率其实可以非常高,达到 99% 甚至更高——但这有一个关键前提:工具本身要足够简单。这也解释了一个行业趋势:越来越多的平台服务在做 Tools 化时,选择的路径是写 CLI,而不是暴露复杂的 SDK 或 REST API。

[Read More]