Karpathy 在 2026 年 3 月开源了 autoresearch,两周内收获近 5 万 Star。项目本身很简单——让 AI Agent 自动修改 LLM 训练代码、跑实验、看指标、保留好的、丢弃差的,一夜循环 100 轮。但简单的背后藏着一个深刻的范式转移:在 AI 时代,人的角色从"做实验的人"变成了"设计实验规则的人",而试错循环本身,交给 Token 去完成。
这不只是 AI 研究的事。任何可以量化评估、快速迭代的业务场景,都可以套用这个范式。
[Read More]Karpathy 在 2026 年 3 月开源了 autoresearch,两周内收获近 5 万 Star。项目本身很简单——让 AI Agent 自动修改 LLM 训练代码、跑实验、看指标、保留好的、丢弃差的,一夜循环 100 轮。但简单的背后藏着一个深刻的范式转移:在 AI 时代,人的角色从"做实验的人"变成了"设计实验规则的人",而试错循环本身,交给 Token 去完成。
这不只是 AI 研究的事。任何可以量化评估、快速迭代的业务场景,都可以套用这个范式。
[Read More]在上一篇文章中,我从 Karpathy 的 autoresearch 项目提炼了一个范式:人写规则,Token 做实验。我们用 AI 客服 Prompt 优化作为案例,验证了这个范式在业务场景中的可行性。但那个方案有一个前提——你需要预先准备评估数据集。
OpenClaw 的场景让我意识到,还有一种更彻底的可能:Agent 用自己的真实执行数据作为评估信号,在用户无感知的情况下持续自我优化。 不需要人工标注测试集,不需要离线批处理,每一次真实使用都是一条训练数据。
[Read More]做了一年多 AI Agent 开发,我逐渐形成了一个核心观点:让 Agent 更准确更高质量地完成任务,最关键的不是换一个更强的模型,而是给它一个正确的执行环境。
具体来说,这个"正确的执行环境"包含四个要素:干净的执行环境、充足且正确的上下文、允许自我探索的空间、以及学会使用工具解决问题的能力。
[Read More]最近看到很多文章在教人如何"省 Token"——压缩 prompt、缩短上下文、用更小的模型替代、砍掉 system prompt……这些技巧看似精明,但我越来越确信一个观点:任何以省 Token 为目标的做法,都不是大模型的最佳实践。
这不是因为我不在乎成本。恰恰相反,正是因为我在乎投入产出比,所以我认为"省 Token"是一个错误的优化方向。
[Read More]在AI辅助编程的时代,Claude Code等智能代码助手已经成为开发者的得力助手。但你是否好奇过:为什么Claude Code能够自动发现并修正生成代码中的错误?这背后的"Agent Loop"机制究竟是如何工作的?本文将深入剖析Claude Code的自动修正原理,并分享Agent Loop的最佳实践。
[Read More]在科技行业求职,特别是向 Google 这样的顶级科技公司投递简历时,如何将个人网站上丰富的项目经验、技术博客和开源贡献转化为一份专业、精准的简历是关键。传统方式需要手动整理、提炼和格式化,既费时又容易遗漏重点。本文将介绍如何利用 AI 工具,特别是大语言模型(LLM),智能地将个人网站内容转化为符合 Google 招聘标准的专业简历。
[Read More]在现代企业的订单处理流程中,不同类型的订单文档往往需要不同的处理逻辑和专业知识。传统的人工分类方式效率低下且容易出错,而基于规则的自动化系统又难以应对复杂多变的业务场景。本文将介绍如何利用大语言模型(LLM)构建一个高质量的订单文档分类器,实现智能路由到专业Agent的完整解决方案。
[Read More]在大语言模型(LLM)快速发展的今天,我们面临一个核心挑战:如何让模型能够访问和利用实时、专业或私有的知识?纯粹依赖预训练的模型往往会出现知识过时、幻觉问题,或者无法回答特定领域的问题。这就是检索增强生成(Retrieval-Augmented Generation, RAG)技术应运而生的原因。
RAG通过将外部知识库的检索能力与LLM的生成能力相结合,为这个问题提供了一个优雅的解决方案。它不需要重新训练模型,就能让AI系统访问最新的、特定领域的知识,同时显著降低幻觉问题。本文将深入探讨RAG的核心原理、架构设计以及实际应用中的最佳实践。
[Read More]