人写规则,Token做实验:从Karpathy的autoresearch看AI应用优化新范式

把人从试错循环中解放出来,用Token一夜跑完500轮实验

Karpathy 在 2026 年 3 月开源了 autoresearch,两周内收获近 5 万 Star。项目本身很简单——让 AI Agent 自动修改 LLM 训练代码、跑实验、看指标、保留好的、丢弃差的,一夜循环 100 轮。但简单的背后藏着一个深刻的范式转移:在 AI 时代,人的角色从"做实验的人"变成了"设计实验规则的人",而试错循环本身,交给 Token 去完成。

这不只是 AI 研究的事。任何可以量化评估、快速迭代的业务场景,都可以套用这个范式。

[Read More]

自我进化的AI助手:OpenClaw如何用Heartbeat实现Skill自动优化

从autoresearch到Agent自闭环优化——执行产生数据,数据驱动优化,优化改善执行

上一篇文章中,我从 Karpathy 的 autoresearch 项目提炼了一个范式:人写规则,Token 做实验。我们用 AI 客服 Prompt 优化作为案例,验证了这个范式在业务场景中的可行性。但那个方案有一个前提——你需要预先准备评估数据集。

OpenClaw 的场景让我意识到,还有一种更彻底的可能:Agent 用自己的真实执行数据作为评估信号,在用户无感知的情况下持续自我优化。 不需要人工标注测试集,不需要离线批处理,每一次真实使用都是一条训练数据。

[Read More]