给 Web Agent 一个 Terminal 就够了

The Harness Should Disappear

上周我写了一篇 LLM 自动化 vs RPA:省的不是智能,是编排成本,提了一个「探索-编译-执行」的三层架构——LLM 先探索网页、找到可行路径,然后编译成代码,后续直接执行。

写完没几天,微软研究院发了 Webwright,几乎就是这套思路的学术验证。但让我意外的不是它验证了三层架构,而是另一个发现: harness 本身可以薄到离谱

整个系统只有 ~1000 行代码,三个模块,没有 multi-agent 编排,没有复杂的动作空间设计。它给模型的东西只有一个——terminal。

给 Web Agent 一个 Terminal 就够了:从精密编排到极简执行

[Read More]

从 SQL 生成器到数据工程范式转移:Anthropic 自助数据分析启示录

Why Anthropic's Self-Service Analytics Proves Data Engineering Must Evolve for Agents

上周,一个同事在悟空里问了一句「上周日活多少」,Agent 自信地返回了一个数字:精确到个位,格式漂亮,SQL 语法无懈可击。唯一的问题是——它用了一张已经废弃 3 个月的旧表。

没有人发现这个错误。因为数字「看起来对」。

这就是 Anthropic 在官方博客《How Anthropic Enables Self-Service Data Analytics with Claude》里描述的核心困境。我第一反应是「这不就是自然语言查数吗」。但读完全文,我发现自己错了——Anthropic 真正在做的,不是让业务人员用中文写 SQL,而是把整个数据工程的范式从「给人看」重构为「给 Agent 看」。

Anthropic 自助数据分析架构:从传统 BI 到 AI Native 的四层范式转移

Anthropic 原文里最刺痛我的一句话是:

The initial elation of liberation from ad-hoc requests turns into dread with the realization that this setup separates stakeholders from the underlying infrastructure, documentation, and expertise that previously steered them toward carefully curated datasets.

翻译成大白话:你刚把 Claude 接上数据仓库,业务方欢呼终于不用找你写 SQL 了;但很快你会发现,他们问出来的问题越来越离谱,因为 Agent 失去了原来数据团队通过文档、培训、代码审查建立的「认知护栏」。

这不是技术问题,是 数据产品的用户变了

[Read More]

LLM 自动化 vs RPA:省的不是智能,是编排成本

Explore Once, Compile to Code, Execute Forever

上周五晚上,一个做 RPA 的朋友跟我吐槽:他们给某电商平台搭的自动化流程,上线三个月,页面改版了两次,每次改版都要派人重新录制操作、调整元素定位、测试回归。「甲方觉得 AI 这么火,为什么你们的机器人还是这么脆弱?」

这个问题问得好,但答案可能不是他期望的。

脆弱的不是 AI,是 每次页面变化都要人工重新编排 这个工作模式。影刀、UiPath 这类传统 RPA 工具,本质上是人工录制 + 元素定位的自动化回放。它的优势是稳定——录制好的流程跑一千次都不会出错。它的劣势也很明显——页面改了,流程就废了,而修复的成本和第一次录制一样高。

大模型的 Computer-Use 和 Browser-Use 走了一条完全不同的路,但大多数人只看到了它「贵」和「慢」的一面,没看到它真正值钱的地方。

LLM 自动化 vs RPA:从线性成本到摊销成本

[Read More]

用 Goal 取代 Graph:多智能体框架的真正方向

Give agents a playground, not a blank canvas

2023 年 3 月,一个名叫 Toran Bruce Richards 的开发者发布了 AutoGPT,两周内 GitHub Star 突破 10 万。他在 README 里写道:「给 AI 一个目标,它自己规划、自己执行、自己反思。」不需要你画流程图,不需要定义任务依赖——完全自治。

三个月后,Richards 的 GitHub Issues 页面变成了大型翻车现场。一个被反复引用的案例:用户让 AutoGPT「研究人工智能的历史」,Agent 搜索了 10 篇文章,保存,然后又搜索了 8 篇,再保存,然后检查自己保存的文件,然后重新搜索……无限循环,API 费用烧了几十美元,一事无成。AutoGPT 的 GitHub 仓库里记录了超过 200 个类似的 infinite loop issue。

AutoGPT 的失败让行业得出了一个看似正确的结论: Agent 需要预定义的执行图。于是 LangGraph 成了 2026 年最受欢迎的 Agent 框架——62% 的开发者选择了它,正是因为它提供了精细的状态机控制和可预测的执行路径。

但我跟很多在用 LangGraph 的团队聊过,他们私下都在抱怨同一件事: 画图太痛苦了。 每增加一个能力,就要重新设计图的拓扑结构;每遇到一个边界情况,就要加一条边和一个条件分支。开发者的时间,一半花在写 Agent 逻辑,另一半花在维护那张 DAG。

这就引出了一个真正的问题:DAG 是答案吗?还是我们在 AutoGPT 的阴影下过度矫正了?

从 DAG 到 Goal:多智能体框架的演进

[Read More]

企业知识库新范式:从一亿预算到人在回路

The paradigm shift from billion-yuan knowledge graphs to human-in-the-loop LLM orchestration

上周和一位创业者吃饭,他刚帮一家大型企业做完知识图谱项目的评估。结论让人倒吸一口凉气:要达到替代中级岗位能力的水平,算上数据采集、清洗、标注、图谱构建和持续维护,预算需要一个亿。

企业听完直接搁置了。

这不是个例。过去三年,我见过不下十个类似的项目——企业想做知识库,供应商画了一个「知识图谱+智能问答」的大饼,然后企业发现投入产出比根本算不过账。

但今年情况变了。模型能力的跃迁正在催生一个新范式:不再靠人工标注堆数据,而是让 LLM 做编排,结合企业搜索,人做优化调整和确认。

知识整理的起点也不再是宏大的「企业知识图谱」,而是每个人手边的 Journal——每日工作日记。通过钉钉这样的组织连接工具,个人知识可以自然地流转、沉淀为企业知识。

[Read More]

构建 Agent 的动态路由决策系统:千人千面的任务执行引擎

Dynamic Routing Decision System for AI Agents

团队里的小王和小李都在用同一个 AI Agent 平台。

小王输入:「帮我总结一下今天群里的讨论。」

Agent 调用了 fast/small 模型做意图识别,然后用 medium 模型读取了 200 条消息,生成了摘要。耗时 3 秒,花费 0.02 元。

小李输入了完全相同的指令。

Agent 却调用了 large/reasoning 模型,不仅做了摘要,还自动关联了小李上周的项目文档,识别出了三个待办事项,并推送到了他的日历。耗时 12 秒,花费 0.15 元。

同样的输入,完全不同的执行路径。

这不是 bug,而是一个成熟的 Agent 系统应该具备的能力——根据用户画像、历史行为、任务上下文,动态决策每一步该用什么模型、什么工具、注入多少上下文、以什么并发度执行。

当你的 Agent 只有 100 个用户时,这些问题还不明显。你可以手动调几个规则,给 VIP 用户分配更好的模型,给普通用户限流。靠人肉运维,系统也能跑。

但当用户量从 100 涨到 10 万、100 万,当模型供应商从 1 家变成 10 家,当工具调用从几个 API 扩展到上百个——靠人写规则来调度,系统会直接崩溃

不是因为规则写不出来,而是因为规则的组合空间是指数级的:

  • 7 种任务类型 × 5 个复杂度等级 × 10 个模型 × 4 种用户画像 × 3 种上下文策略 = 4,200 种路由组合
  • 这还只是单节点决策。如果任务被分解为 3-5 个子节点,每个节点独立路由,组合数直接爆炸到 百万级

没有人能手动维护百万级的路由规则表。

大多数 Agent 框架把执行路径写死在代码里:先调用 A 模型,再调用 B 工具,最后返回结果。这在 demo 阶段没问题,但一旦面向规模化用户,就会暴露三个致命问题:

  1. 成本失控——所有用户都用最强模型,简单任务也在烧钱,规模化后月账单直接六位数
  2. 体验一刀切——新手和专家拿到相同的结果,没有人觉得「懂我」,留存率上不去
  3. 无法进化——系统上线后不会从用户反馈中学习,规则越写越多,越用越僵化

这篇文章,我们来拆解如何构建一个动态路由决策系统(Dynamic Routing Decision System, DRDS)——一套端到端的自进化引擎,让 Agent 的执行路径真正做到千人千面,并且在规模化下持续学习、自动优化。

核心观点:自进化不是 Agent 的「加分项」,而是规模化后的「必选项」。

[Read More]

用 LLM Wiki + Obsidian 构建个人 AI 知识图谱

Automated knowledge graph with Hermes Agent and Obsidian

去年年底,我做了一个实验:把过去十年写的 190 多篇博客、Obsidian 里的读书笔记、还有悟空 Agent 的实践记录,全部扔给 Hermes Agent,让它按照 Karpathy 的 LLM Wiki 模式自动整理。

三天后,我打开 Obsidian 的 Graph View,看到了一个由 50 多个节点互相连接的知识网络 — 不是文件归档,而是一个真正的知识图谱。Agent 自动提取了实体和概念,建立了双向链接,甚至发现了我自己都没意识到的关联:[[compression-as-intelligence]][[agent-memory]] 之间有一条隐含的逻辑链,我自己写了三年都没发现。

那一刻我意识到:个人知识管理的瓶颈不是工具,而是"碎片到结构"的转换成本。 这篇文章,我把整个系统的架构、自动化流程和实际用法完整拆解出来。

[Read More]

上线 1 个月的桌面 Agent,路由架构应该怎么演进?

Phased Routing Evolution for a One-Month-Old Desktop Agent

上周三晚上 11 点,老王给我发消息:他们的桌面 Agent 上线刚满 30 天,DAU 爬到 8000,团队 4 个人。他翻了一周用户行为日志,发现一个反直觉的事实——用过 3 次以上的用户里,62% 只把它当"自然语言版的快捷启动器"用,真正让它做跨应用编排的不到 13%。但他们的技术栈正按"复杂编排"在搭:每个 query 直接扔给 GPT-4o 做 function calling,P50 延迟 1.6 秒,P99 干到 3.8 秒。

老王问:“我看了你之前那个四层意图漏斗,要不要现在就全套上?团队就 4 个人,老板说三个月内要把日活做到 5 万,怕 over-engineering。”

我的答案:要上,但不是一次上四层。1 个月的 Agent 团队最缺的不是模型层数,是能让你做对决策的数据

[Read More]

能做事的 Agent,需要一个推荐系统

Building a Task-Model-Sandbox Recommendation Engine for AI Agents

上周团队里的某同事给他的 AI Agent 加了一个"帮我总结这个网页"的功能。用户发一个 URL,Agent 自动打开、提取内容、生成摘要。听起来很简单对吧?

结果上线第一天就翻车了。

一个用户发了一个 GitHub 仓库链接,Agent 用浏览器沙箱打开了仓库首页,截取了 README 的前几屏,然后用一个 7B 的轻量模型生成了摘要——完全忽略了仓库里真正的核心代码和 issue 讨论。用户等了 40 秒,得到了一段废话。

同一个功能,另一个用户发了一个新闻网站链接,这次 Agent 反而用了最强的推理模型去处理——一个纯文本提取任务,花了不必要的 token 费用,还因为推理模型的"过度思考"把简单的新闻摘要写成了一篇分析报告。

某同事跑来找我:“模型能力明明够了,为什么用户体验这么差?”

我说:“你的问题不是模型不行,是你没有给任务找到合适的模型和执行环境。你缺的是一个推荐系统。”

[Read More]