<?xml version="1.0" encoding="utf-8" standalone="yes"?><rss version="2.0" xmlns:atom="http://www.w3.org/2005/Atom"><channel><title>Performance on All about Raspberry Pi</title><link>https://hugozhu.site/tags/performance/</link><description>Recent content in Performance on All about Raspberry Pi</description><generator>Hugo</generator><language>en</language><lastBuildDate>Mon, 18 May 2026 00:00:00 +0000</lastBuildDate><atom:link href="https://hugozhu.site/tags/performance/index.xml" rel="self" type="application/rss+xml"/><item><title>悟空技巧十二：Token 经济学，用工程手段优化 AI 协作成本与延迟</title><link>https://hugozhu.site/post/2026/227-wukong-prompt-token-economics/</link><pubDate>Mon, 18 May 2026 00:00:00 +0000</pubDate><guid>https://hugozhu.site/post/2026/227-wukong-prompt-token-economics/</guid><description>&lt;p&gt;你的团队全面接入悟空（或企业级 AI 平台）三个月后，CTO 把两份报告拍在了你的桌上。&lt;/p&gt;
&lt;p&gt;第一份是&lt;strong&gt;财务账单&lt;/strong&gt;：API 调用费用环比增长了 400%，其中 60% 的 Token 消耗在生成「无用的客套话」和「重复的上下文注入」上。
第二份是&lt;strong&gt;用户体验报告&lt;/strong&gt;：核心业务场景的平均首字延迟（TTFT）高达 8 秒，客服团队抱怨 AI 响应太慢，导致客户在等待中流失。&lt;/p&gt;
&lt;p&gt;&lt;strong&gt;AI 能力很强，但如果成本压不住、延迟降不下，它就无法成为真正的生产基础设施。&lt;/strong&gt;&lt;/p&gt;
&lt;p&gt;在前面的十一篇文章中，我们构建了从 &lt;a href="https://hugozhu.site/post/2026/211-wukong-prompt-clarification-technique/"&gt;需求澄清&lt;/a&gt;、&lt;a href="https://hugozhu.site/post/2026/219-wukong-prompt-step-by-step-execution/"&gt;流程控制&lt;/a&gt;、&lt;a href="https://hugozhu.site/post/2026/224-wukong-prompt-multi-agent-orchestration/"&gt;多 Agent 编排&lt;/a&gt; 到 &lt;a href="https://hugozhu.site/post/2026/226-wukong-prompt-security-and-compliance/"&gt;安全防御&lt;/a&gt; 的完整工程体系。&lt;/p&gt;
&lt;p&gt;但所有这些技巧，都聚焦在「功能实现」和「质量保障」。当 AI 协作从「试点项目」走向「规模化运营」时，&lt;strong&gt;Token 消耗（成本）和推理延迟（性能）&lt;/strong&gt; 将成为决定项目生死的硬指标。&lt;/p&gt;
&lt;p&gt;今天，我们探讨技巧十二，也是本系列的&lt;strong&gt;收官之作&lt;/strong&gt;：&lt;strong&gt;如何通过「Token 经济学」，用工程手段优化 AI 协作的成本与延迟，实现质量、速度与 ROI 的最佳平衡。&lt;/strong&gt;&lt;/p&gt;</description></item></channel></rss>