LLM - Hugo Zhu's Blog

大模型 Tool Use 准确率可达 99%，但前提是工具足够简单

为什么平台服务 Tools 化的最佳实践是写 CLI

Posted on March 2, 2026 | 2 min | 374 words

最近在做 Agent 开发时，我发现一个有意思的现象：大模型调用工具的准确率其实可以非常高，达到 99% 甚至更高——但这有一个关键前提：工具本身要足够简单。这也解释了一个行业趋势：越来越多的平台服务在做 Tools 化时，选择的路径是写 CLI，而不是暴露复杂的 SDK 或 REST API。

高质量数据越多，大模型表现越优秀

AI 信仰建立在因为看见所以相信

Posted on February 27, 2026 | 1 min | 119 words

最近和几个做 AI 的朋友聊天，发现一个有趣的现象：很多人对大模型的信仰是"因为相信所以看见"——相信 AGI 会来，相信 scaling law 会继续有效，相信未来的模型会更强大。

但我的观点恰恰相反：AI 信仰应该建立在"因为看见所以相信"。而我们能看见什么？最直观的就是——高质量数据越多，大模型表现越优秀。这不是信仰，是已经被反复验证的事实。

AI时代的个人生产力公式：思考深度 × 资源调度广度

每天用光可支配的 token，衡量个人产出是否在不断提升

Posted on February 25, 2026 | 2 min | 261 words

最近我一直在思考一个问题：在 AI 时代，个人生产力的本质到底是什么？经过大半年高强度使用各类 AI 工具的实践，我得出了一个公式：

个人生产力 = 思考深度 × 资源调度广度

这不是一个数学公式，而是一个思维框架。它帮我重新理解了"人应该做什么"和"AI 应该做什么"这个根本问题。

任何省 Token 的做法都不是大模型的最佳实践

别让「省钱思维」毁掉你使用 AI 的上限

Posted on February 25, 2026 | 2 min | 344 words

最近看到很多文章在教人如何"省 Token"——压缩 prompt、缩短上下文、用更小的模型替代、砍掉 system prompt……这些技巧看似精明，但我越来越确信一个观点：任何以省 Token 为目标的做法，都不是大模型的最佳实践。

这不是因为我不在乎成本。恰恰相反，正是因为我在乎投入产出比，所以我认为"省 Token"是一个错误的优化方向。

Manus、Lovable、Dify、Coze 的本质：为大模型开发 Skills 的工具

当 AI 平台的护城河不再是技术本身，而是生态、用户规模和沉淀下来的数据

Posted on February 22, 2026 | 2 min | 242 words

2025 年以来，AI 应用层出现了一波令人眼花缭乱的平台：Manus 主打通用 AI Agent，Lovable 专注 AI 驱动的应用生成，Dify 提供 LLM 应用编排框架，Coze（扣子）让用户可以可视化地构建 AI Bot。它们看起来各有侧重，产品形态也不尽相同，但如果你退后一步观察，会发现它们在做的事情本质上是一样的——为大模型开发 Skills。

[Read More]

AI LLM AI-agents Manus Lovable Dify Coze AI-platform skills

Step-by-Step 实现一个能编程的大模型

从零开始训练一个专注于 Python 代码生成的小型 LLM

Posted on February 9, 2026 | 14 min | 2874 words

你是否好奇过 GitHub Copilot、CodeLlama 这些代码生成模型是如何工作的？本文将带你从零开始，一步步实现一个专注于 Python 代码生成的小型语言模型。通过这个项目，你将深入理解 Transformer 架构、代码 tokenization、以及如何让模型学会"写代码"。

如何对会议纪要 Agent 进行 Benchmark？完整指南与实践

从评估指标设计到自动化测试的全流程实战

Posted on January 7, 2026 | 7 min | 1307 words

在 AI Agent 应用日益普及的今天,会议纪要生成是最常见的落地场景之一。然而,如何科学地评估一个会议纪要 Agent 的性能,却是许多开发者面临的难题。本文将详细介绍如何构建一个完整的 benchmark 体系,包括评估维度设计、数据集准备、指标计算和自动化测试流程。

NotebookLM的核心能力与构建之道

深入解析Google AI笔记应用的关键技术与实现架构

Posted on January 3, 2026 | 7 min | 1402 words

当Google在2023年推出NotebookLM时，它重新定义了我们与知识交互的方式。这款AI驱动的笔记应用不仅仅是一个文档管理工具，更是一个能够理解、总结、对话和创作的智能助手。那么，NotebookLM究竟具备哪些关键能力？我们如何构建类似的系统？本文将深入剖析其核心技术架构。

[Read More]

AI LLM RAG NotebookLM Google NLP TTS 多模态

智谱开源Slime：企业AI应用的强化学习利器

从技术框架到商业价值，深度解析Slime如何降低企业AI落地门槛

Posted on January 3, 2026 | 4 min | 669 words

当企业决策者在考虑如何让AI真正产生业务价值时，一个核心挑战始终存在：如何让AI系统持续学习和优化，而不是停留在"静态模型"阶段？ 智谱AI开源的Slime框架，正是为解决这一痛点而生的强化学习后训练系统。

如果说预训练模型是AI的"基础教育"，那么强化学习就是让AI在真实业务场景中"实战成长"的关键。Slime不仅仅是又一个开源框架，它代表着企业级AI应用从"能用"到"好用"的范式转变。

[Read More]

AI 强化学习 Slime 企业AI SGLang Megatron LLM 机器学习

Claude Code自动修正生成代码的原理解析：Agent Loop最佳实践

深入理解AI代码助手如何通过反馈循环实现自我修正与持续优化

Posted on December 24, 2025 | 6 min | 1107 words

在AI辅助编程的时代，Claude Code等智能代码助手已经成为开发者的得力助手。但你是否好奇过：为什么Claude Code能够自动发现并修正生成代码中的错误？这背后的"Agent Loop"机制究竟是如何工作的？本文将深入剖析Claude Code的自动修正原理，并分享Agent Loop的最佳实践。