昨天我写了一篇《用 LLM 构建程序化知识系统》,提出「记忆 · 知识 · 技能」三层架构。文章发出后不到 48 小时,两个重量级项目几乎同时进入我的视野——YC 总裁 Garry Tan 开源了 GBrain,EverMind 团队发布了 EverOS。
更巧的是,这两个项目恰好代表了 AI Agent 长期记忆的两条截然不同的技术路线:一条是"用自然语言指令驱动 LLM 自行理解",另一条是"用工程架构确定性落地"。它们互为镜像,又互相矛盾。
我把它们放在一起比较,同时加入了我自己的实践,最终得出了一个你可能没想到的结论:这场战争没有输赢,只有分层。
一、无状态困境:Agent 进化的最大瓶颈
如果你今天问任何一个 AI Agent:“昨天你帮我做了什么?“不用说,它大概率会"一脸茫然”,然后开始胡言乱语。
这是因为绝大多数基于 LLM 的智能体都受困于无状态困境(Stateless Dilemma):会话一旦结束,记忆即刻清零。下一次对话,永远是从零开始的冷启动。你反复解释过的项目背景、合作伙伴的性格偏好、你曾经表达过的观点,对 Agent 而言都是一片虚无。
这正是阻挡 Agent 从"好用的工具"进化为"真正的助手"的核心障碍。
而 GBrain 和 EverOS 都在试图解决这个问题,只是路径完全不同。
二、GBrain:Prompt 驱动的"个人第二大脑”
YC 总裁 Garry Tan 开源 GBrain 时,在 X 上写了一句话:“我希望所有人都能拥有自己的’个人迷你 AGI’。”
他的方案非常极简:让 Agent 经历 读取 → 对话 → 写入 的闭环。每当有新信号进入系统——邮件、会议录音、推文、日历变动——Agent 先查询已有知识库,理解上下文后回应,然后将新知识写回,供下一次使用。
新信号(邮件/录音/推文/日历)
│
▼
┌──────────────────────┐
│ 1. 读取:查询知识库 │
│ 2. 对话:理解+回应 │
│ 3. 写入:更新知识库 │
└──────────────────────┘
│
▼
每走一圈,Agent 更懂你
两个迷人机制
GBrain 最吸引人的地方在于它的**「梦境循环」**(Dream Cycle):Agent 在用户睡觉时后台运行,扫描当天对话,充实实体信息、修复引用、合并冗余记忆。Tan 的原话是:“我早上醒来,大脑已经比我睡着前更聪明了。”
另一个亮点是**「编译真相」**(Compiled Truth)架构:每个实体页面顶部是 Agent 综合判断的"最新摘要"(可随新证据重写),底部是"不可修改的时间线"(原始证据链)。兼顾动态更新与事实溯源。
争议:这到底是软件还是提示词?
然而 GBrain 上线六天后,DEV Community 上的一篇代码审查文章就给出了不太乐观的结论:GBrain README 中宣传的三个重要功能——编译真相重写、梦境循环维护、实体检测——在代码库中均无对应的确定性逻辑实现。
文章认为,这些功能本质上是写在 Markdown 文档中的 Agent 指令,依赖 LLM 去解读和执行,而非通过代码实现。此外,项目 Issue 中记录了 12 个关键 Bug(竞态条件、NULL 嵌入覆盖等),安全审计甚至标注其 S3 后端"未达到生产就绪"状态。
这触及了一个更深层的争论:当一个系统的核心功能是通过自然语言指令让 LLM 代为执行,而非通过确定性代码实现时,它究竟算不算一个"软件产品"?还是更接近于一套精心编排的提示词工程?
三、EverOS:工程落地的"记忆操作系统"
如果说 GBrain 是"用想法驱动 Agent",那么 EverOS 就是"用架构保证结果"。
EverMind 团队发布的 EverOS 是一个完整的 AI Agent 长期记忆操作系统,包含两套核心方法和两个基准测试,已有 3 篇 arXiv 论文,其中 HyperMem 已被 ACL 2026 接收。
整体架构
┌────────────────────────────────────────────────────────────┐
│ EverOS │
│ │
│ ┌───────────────┐ ┌───────────────────────────────┐ │
│ │ Methods │ │ Benchmarks │ │
│ │ │ │ │ │
│ │ EverCore │ │ EverMemBench · 三层质量评估 │ │
│ │ (记忆OS) │ │ EvoAgentBench · 自我进化评估 │ │
│ │ │ │ │ │
│ │ HyperMem │ │ │ │
│ │ (超图记忆) │ │ │ │
│ └───────────────┘ └───────────────────────────────┘ │
│ │
│ ┌───────────────────────────────────────────────────────┐ │
│ │ 12+ Use Cases │ │
│ │ OpenClaw · Claude Code · Golutra · Mobi · LAI ... │ │
│ └───────────────────────────────────────────────────────┘ │
└────────────────────────────────────────────────────────────┘
EverCore:自组织记忆操作系统
EverCore 的核心单元是 MemCell——原子级记忆单元,从对话中自动提取。它将记忆分为七种类型:
| 记忆类型 | 含义 | 示例 |
|---|---|---|
| Episodes | 事件 | “2025-03 产品评审会讨论了定价策略” |
| Profiles | 画像 | “张三,CEO,关注效率工具” |
| Preferences | 偏好 | “喜欢 Python 胜过 Java” |
| Relationships | 关系 | “李四是张三的技术合伙人” |
| Semantic Knowledge | 语义知识 | “LoCoMo 是长程记忆评估基准” |
| Core Memories | 核心记忆 | “YC 2025 W24 路演获得 top 3” |
EverCore 采用六层分层架构:
Agentic Layer ← 统一记忆接口(提取/检索/重排编排)
│
Memory Layer ← MemCell 提取 + 记忆类型分类 + Prompt 管理
│
Retrieval Layer ← BM25 + 向量搜索 + RRF 融合 + Agent 多轮召回
│
Business Layer ← API 端点 + 请求处理 + 业务规则
│
Infrastructure Layer ← MongoDB + Elasticsearch + Milvus + Redis
│
Core Framework ← 依赖注入 + 生命周期 + 中间件 + 配置管理
在 LoCoMo 基准上,EverCore 达到了 93% 的准确率。
HyperMem:超图记忆架构(ACL 2026)
HyperMem 是 EverOS 更学术化的一面。它的核心创新是用超图(Hypergraph)捕获高阶关联——传统 RAG 只能表示 pairwise 关系,而超图可以表示多对多的高阶依赖。
L3 Topic ───── Topic ───── Topic (超边连接相关主题)
│ │ │
L2 Episode──Episode Episode (超边连接同主题事件)
│ │
L1 Fact-Fact-Fact Fact-Fact (超边连接同事件事实)
检索采用自顶向下、从粗到细的三阶段策略:先找到相关 Topic,再在 Topic 内找到 Episode,最后在 Episode 内找到 Fact。这种设计避免了传统 RAG “大海捞针"的低效。
在 LoCoMo 基准上,HyperMem 达到 92.73%,超越最强 RAG 基线 HyperGraphRAG(86.49%)6.24 个百分点。精选对比数据如下:
| 方法 | Single-hop | Multi-hop | Temporal | Overall |
|---|---|---|---|---|
| Mem0 | 67.13 | 51.15 | 55.51 | 66.88 |
| MemOS | 81.09 | 67.49 | 75.18 | 75.80 |
| HyperGraphRAG | 90.61 | 80.85 | 85.36 | 86.49 |
| HyperMem | 96.08 | 93.62 | 89.72 | 92.73 |
四、Agent 记忆成熟度模型
在比较完 GBrain 和 EverOS 之后,我提出了一个五层记忆成熟度模型,用来评估任何 Agent 记忆系统的成熟度:
┌────────┐
│ L5 │ 自我进化
┌┴────────┴┐
│ L4 │ 结构化记忆
┌┴───────────┴┐
│ L3 │ 混合检索
┌┴──────────────┴┐
│ L2 │ 持久化存储
┌┴─────────────────┴┐
│ L1 │ 上下文窗口
└────────────────────┘
每一层的含义:
| 层级 | 名称 | 含义 | 关键能力 |
|---|---|---|---|
| L1 | 上下文窗口 | 会话级临时记忆 | 单次对话内保持一致性 |
| L2 | 持久化存储 | 记忆跨会话保存 | 数据库/文件系统,写入后可读取 |
| L3 | 混合检索 | 精准 + 语义双重召回 | BM25 + 向量 + RRF 融合 |
| L4 | 结构化记忆 | 实体/关系/时间线 | 知识图谱、超图、Compiled Truth |
| L5 | 自我进化 | 记忆自动整理优化 | Dream Cycle、自动压缩、权重衰减 |
用这个模型打分,结果很有意思:
| 系统 | L1 | L2 | L3 | L4 | L5 | 定位 |
|---|---|---|---|---|---|---|
| 普通 Agent | ✅ | ❌ | ❌ | ❌ | ❌ | 用完即忘 |
| GBrain | ✅ | ✅ | ⚠️ | ✅ | ⚠️ | Prompt 驱动的记忆层 |
| EverOS | ✅ | ✅ | ✅ | ✅ | ✅ | 生产级记忆 OS |
| 你的架构 | ✅ | ✅ | ✅ | ✅ | ✅ | 轻量级个人实践 |
GBrain 的 L3 和 L5 打了 ⚠️,因为它的检索依赖 PGLite + pgvector(够用但不够强),而 Dream Cycle 是 Prompt 指令而非代码实现。EverOS 则五层全满——但这不代表它一定比 GBrain 好,因为复杂度也高了一个数量级。
五、第三条路线:你的「记忆 · 知识 · 技能」架构
回到我上一篇文章提出的架构。与 GBrain 和 EverOS 相比,我的方案走了一条中间路线:
┌──────────────────────────────────────────────────┐
│ 你的博客 Agent │
│ │
│ ┌──────────┐ ┌────────────┐ ┌──────────┐ │
│ │ 记忆引擎 │ │ 知识图谱 │ │ 技能注册表│ │
│ │ │ │ │ │ │ │
│ │ 三层结构 │ │ 自动演化 │ │ 版本管理 │ │
│ │ 压缩遗忘 │ │ 冲突解决 │ │ 动态加载 │ │
│ │ TTL/权重 │ │ 图查询增强 │ │ 回归测试 │ │
│ └──────────┘ └────────────┘ └──────────┘ │
│ │
│ ↕ ↕ ↕ │
│ ┌──────────────────────────────────────────┐ │
│ │ LLM Orchestrator │ │
│ │ 理解意图 → 规划路径 → 调用模块 → 评估 │ │
│ └──────────────────────────────────────────┘ │
└──────────────────────────────────────────────────┘
与 EverOS 相比,我的架构更轻量——不需要 MongoDB/Elasticsearch/Milvus/Redis 四件套,用 SQLite + 向量数据库就够了。与 GBrain 相比,它更结构化——不是纯靠 Prompt 驱动,而是有明确的模块边界和版本管理。
它的核心优势在于部署成本极低:不需要 Docker Compose 启动五个服务,不需要配置向量数据库,不需要 GPU 跑本地 embedding 模型。一个 Python 脚本 + 一个向量库就能跑起来。
六、终局判断:不是"谁更好”,而是"谁适合谁"
这场"记忆战争"的答案不在技术本身,而在场景。
如果你是一个重度 AI 用户(比如 Tan),每天处理大量人际交互和信息流,GBrain 的"Dream Cycle + Compiled Truth"组合拳足够好用。它不完美,但足够简单——用 Markdown 写指令,让 LLM 去执行。随着模型能力的提升,Prompt 驱动的系统会越来越可靠。
如果你是一个团队或企业,需要为多个 Agent 提供可复用的记忆基础设施,EverOS 是最佳选择。它的六层架构、多存储引擎、两套 benchmark 提供了工业级保障。代价是部署复杂度和运维成本。
如果你是一个独立的开发者或研究者,不想被 infra 绑架,也不想完全依赖 LLM 的"自由发挥",那么「记忆 · 知识 · 技能」的轻量架构可能是最务实的选择。它吸收了 EverOS 的结构化思想,同时保留了 GBrain 的简洁性。
七、一个更重要的信号
比"谁更好"更重要的一个信号是:记忆正在成为 Agent 的基础设施,就像数据库之于 Web 应用。
回顾 2026 年 Q1 的记忆领域:
- GBrain(Garry Tan):13 年记忆、14,700 页面、Dream Cycle
- EverOS(EverMind):3 篇论文、ACL 2026、12+ Use Cases
- Karpathy 的 graphify:把任意文件夹变成知识图谱,25k+ stars
- Karpathy 的 autoresearch:Agent 一晚自主迭代 100 次实验
- Mem0 / MemOS / LangMem:各有特色的记忆中间件
这些项目有一个共同特征:它们都在试图让 Agent “记住”,而不是每次都从零开始。
当记忆成为基础设施,下一个问题是:谁来决定记住什么、遗忘什么、如何进化? 这不再是一个技术问题,而是一个关于 Agent 自主性和人类控制的哲学问题。
GBrain 选择让 Agent 自主决定(Dream Cycle 全自动),EverOS 选择用算法决定(超图传播 + 权重更新),我的选择是人类定义规则,系统自动执行——TTL、权重衰减、压缩阈值都可以配置,但决策逻辑是确定性的。
八、结语:记忆是 Agent 的"灵魂"吗?
回到开头的那个问题:你问 Agent “昨天你帮我做了什么”,它答不上来。
但也许不久的将来,它不仅会回答"昨天我帮你写了三篇博客、改了两个 Bug",还会说"我注意到你最近在密集研究 Agent 记忆系统,上周那篇文章的数据和这篇 EverOS 的分析已经整合进你的知识图谱了,需要我生成对比表格吗?"
那一天,Agent 就不再是一个工具了。它是一个有历史的协作者。
记忆让 Agent 有历史,知识让 Agent 有逻辑,技能让 Agent 有手段。当这三者形成闭环,我们就不再是"每次重新调教一个 AI",而是在"培养一个持续进化的数字协作者"。
它不需要一开始就很完美。它只需要:记住教训,沉淀规律,优化动作,下一次做得更好。
GBrain 和 EverOS 你更看好哪条路线?你的 Agent 有长期记忆吗?欢迎在评论区聊聊。