LLM - Hugo Zhu's Blog

LLM 押注在 Coding Agent 上是正确的

当每个人都能写代码，IT 系统的瓶颈不再是技术，而是想象力

Posted on April 4, 2026 | 2 min | 241 words

三个月前，我用 Claude Code 花了一个下午搭了一套完整的钉钉消息监控系统：自动抓取指定群的消息、按关键词分类、生成每日摘要、定时推送到我的私聊。整套流程从数据采集到定时任务，大约 500 行 TypeScript。

同样的事情，如果走公司正规 IT 流程——提需求、排期、开发、测试、上线——保守估计三个月，还不一定能排上。

这件事让我确信一个判断：LLM 厂商把重注押在 Coding Agent 上，是目前最正确的战略选择。 不是因为 Coding Agent 能替代程序员，而是因为它把"用代码解决问题"这件事的门槛，从"需要一个工程团队"降到了"需要一个能清楚描述问题的人"。

Agent 是复杂个性化需求的最优解：解决用户自己都说不清的问题

为什么传统软件解决不了的需求，Agent 能解决？因为它不需要你先想清楚

Posted on April 3, 2026 | 2 min | 351 words

上周帮一个客户上线了一个"智能周报助手"。需求方的原话是：“帮我们的销售团队自动生成周报。”

听起来很简单。但往下聊五分钟，你会发现这句话背后藏着至少二十个未定义的决策：周报包含哪些维度？数据从哪来？不同区域的销售负责人关注点一样吗？“好的周报"到底长什么样？客户自己也说不清。

最终的解决方案不是一个固定模板的报表工具，而是一个 Agent——它能根据每个销售负责人的历史偏好、当周数据特征、团队上下文，动态决定周报的结构、重点和措辞。

这件事让我重新思考一个问题：Agent 的核心价值到底是什么？ 不是"自动化”，不是"降本"，而是——它是目前唯一能规模化解决"复杂个性化需求"的技术方案。

[Read More]

AI-agents 产品设计 LLM 个性化需求分析 AI

AI的MaaS层最核心的能力：把一个不稳定的概率接口，变成一个可运营的服务

Model as a Service不是套壳API，而是AI应用从Demo到生产的关键基础设施

Posted on March 28, 2026 | 2 min | 345 words

很多人对MaaS（Model as a Service）的理解停留在"套一层API"——把OpenAI的接口包一下，加个Key管理，做个用量统计，就叫MaaS了。如果这就是MaaS的全部，那它确实没什么技术含量，随便一个API Gateway就能干。

但现实是：几乎所有在生产环境跑AI应用的团队，最终都会自建或依赖一个MaaS层。 不是因为他们闲，而是因为裸调模型API在生产环境里根本撑不住。

MaaS层真正要解决的问题是：把一个概率性的、无状态的、昂贵的模型API调用，变成一个可靠的、可观测的、成本可控的服务。

[Read More]

AI MaaS architecture LLM infrastructure

模型和Agent的边界：模型决定上限，Agent决定你能不能稳定拿到这个上限

别让Agent更像人思考，让系统更像机器可靠执行

Posted on March 27, 2026 | 1 min | 184 words

每个Agent开发者都绕不过一个灵魂拷问：模型一直在进化，Agent的价值到底在哪？

GPT-5比GPT-4强，Claude 4比Claude 3强，Gemini 2比Gemini 1强。模型按周迭代、按月跨代，推理更深、上下文更长、幻觉更少。如果模型本身就在变强，我们在模型之上搭的这一层"Agent"——到底是在创造价值，还是在制造冗余？

这个问题不回答清楚，Agent开发就永远在焦虑中摇摆。

[Read More]

AI-agents LLM 架构 AI

悟空的真正价值：把LLM变成可治理的执行系统

代理循环 + 工具系统 + 治理护栏 + 可交付资产——知识工作自动化的主流架构范式

Posted on March 25, 2026 | 2 min | 277 words

把 ChatGPT 接入企业系统就能替代人工？这是 2024 年最昂贵的幻觉之一。

如果把传统聊天助手看作"知识与语言能力的放大器"，那么悟空代表了下一个阶段：把语言模型变成可行动、可交付、可治理的工作代理。这不是能力的线性升级，而是系统定位的根本转变——从"回答问题"到"完成工作"。

[Read More]

AI-agents LLM 架构治理悟空

人写规则，Token做实验：从Karpathy的autoresearch看AI应用优化新范式

把人从试错循环中解放出来，用Token一夜跑完500轮实验

Posted on March 21, 2026 | 3 min | 531 words

Karpathy 在 2026 年 3 月开源了 autoresearch，两周内收获近 5 万 Star。项目本身很简单——让 AI Agent 自动修改 LLM 训练代码、跑实验、看指标、保留好的、丢弃差的，一夜循环 100 轮。但简单的背后藏着一个深刻的范式转移：在 AI 时代，人的角色从"做实验的人"变成了"设计实验规则的人"，而试错循环本身，交给 Token 去完成。

这不只是 AI 研究的事。任何可以量化评估、快速迭代的业务场景，都可以套用这个范式。

悟空是AI时代的淘宝：Token消费的多快好省

Agent工程的终极目标，是对模型Token消耗的多快好省优化

Posted on March 20, 2026 | 3 min | 633 words

1962年，一位伟人为中国工业发展题写了"鼓足干劲，力争上游，多快好省地建设社会主义"。六十多年后，当我们审视AI Agent工程的核心挑战时，会发现一个惊人的对称：Agent工程的终极优化目标，本质上就是对模型Token消耗的"多快好省"。

淘宝用十五年把"多快好省"刻进了中国零售的DNA——商品要多、物流要快、品质要好、价格要省。而今天的AI Agent Runtime，正在用同一套逻辑重塑Token消费——模型类型要多、响应速度要快、完成效果要好、使用成本要省。

悟空——孙悟空七十二变（多）、筋斗云十万八千里（快）、金箍棒降妖除魔（好）、一根毫毛变千猴（省）。一个优秀的Agent Runtime，就是AI时代的淘宝，Token世界的悟空。

企业专属模型：让企业放心调用大模型的架构最佳实践

从共享 API 到私有化部署——五种架构模式解决'数据会不会被拿去训练'的终极顾虑

Posted on March 15, 2026 | 4 min | 839 words

和企业客户聊 AI 落地，十次有九次会被问到同一个问题：“我们调用你们的大模型，数据会不会被拿去训练？”

这个问题背后的焦虑是真实的。企业的客户数据、商业机密、内部文档、代码仓库——这些是企业的核心资产。把它们发送给一个外部的大模型 API，本质上就是把家底给别人看了一遍。如果这些数据还被用来训练模型，那等于是在免费帮竞争对手提升 AI 能力。

好消息是，这个问题在 2026 年已经有了成熟的解决方案。坏消息是，大多数企业还不知道该怎么选。

让 Agent 更准确地完成任务，关键不在模型，而在环境

干净环境、充足上下文、探索空间、工具能力——Agent 质量的四根支柱

Posted on March 5, 2026 | 2 min | 406 words

做了一年多 AI Agent 开发，我逐渐形成了一个核心观点：让 Agent 更准确更高质量地完成任务，最关键的不是换一个更强的模型，而是给它一个正确的执行环境。

具体来说，这个"正确的执行环境"包含四个要素：干净的执行环境、充足且正确的上下文、允许自我探索的空间、以及学会使用工具解决问题的能力。

以前人给 AI 造工具，现在 AI 自己造工具

从声明式工具调用到程序化工具调用（PTC），AI Agent 的工具范式正在发生根本性转变

Posted on March 4, 2026 | 2 min | 408 words

做 AI Agent 开发这一年多来，我经历了一个认知上的转变：以前的默认思路是"我要给 AI 准备好一切工具，让它去调用"；而现在，越来越多的场景让我意识到——AI 为了完成任务，会自己造工具。这不是一个隐喻，而是一个正在发生的技术事实。

[Read More]

AI AI-agents tool-use PTC Claude LLM architecture