<?xml version="1.0" encoding="utf-8" standalone="yes"?><rss version="2.0" xmlns:atom="http://www.w3.org/2005/Atom"><channel><title>Browser-Automation on All about Raspberry Pi</title><link>https://hugozhu.site/tags/browser-automation/</link><description>Recent content in Browser-Automation on All about Raspberry Pi</description><generator>Hugo</generator><language>en</language><lastBuildDate>Sun, 07 Jun 2026 00:00:00 +0000</lastBuildDate><atom:link href="https://hugozhu.site/tags/browser-automation/index.xml" rel="self" type="application/rss+xml"/><item><title>给 Web Agent 一个 Terminal 就够了</title><link>https://hugozhu.site/post/2026/260-webwright-terminal-is-enough/</link><pubDate>Sun, 07 Jun 2026 00:00:00 +0000</pubDate><guid>https://hugozhu.site/post/2026/260-webwright-terminal-is-enough/</guid><description>&lt;p&gt;上周我写了一篇 &lt;a href="https://hugozhu.site/post/2026/255-llm-browser-use-vs-rpa/"&gt;LLM 自动化 vs RPA：省的不是智能，是编排成本&lt;/a&gt;，提了一个「探索-编译-执行」的三层架构——LLM 先探索网页、找到可行路径，然后编译成代码，后续直接执行。&lt;/p&gt;
&lt;p&gt;写完没几天，微软研究院发了 Webwright，几乎就是这套思路的学术验证。但让我意外的不是它验证了三层架构，而是另一个发现： &lt;strong&gt;harness 本身可以薄到离谱&lt;/strong&gt;。&lt;/p&gt;
&lt;p&gt;整个系统只有 ~1000 行代码，三个模块，没有 multi-agent 编排，没有复杂的动作空间设计。它给模型的东西只有一个——terminal。&lt;/p&gt;
&lt;p&gt;&lt;a href="https://hugozhu.site/img/2026/webwright-terminal-is-enough.png"&gt;&lt;img src="https://hugozhu.site/img/2026/webwright-terminal-is-enough-thumb.jpg" alt="给 Web Agent 一个 Terminal 就够了：从精密编排到极简执行"&gt;&lt;/a&gt;&lt;/p&gt;</description></item></channel></rss>