Agent Memory 研究日报：2026年5月9日 arXiv cs.AI 论文分析

2026-05-09

概述

本期分析了 2026 年 5 月 7 日发布的 22 篇 cs.AI 领域论文，筛选出 1 篇与 Agent Memory 高度相关的论文。本期的重点论文探讨了自我进化 Agent 中的技能策展和经验学习机制，为长期记忆系统的设计提供了新的思路。

今日相关论文列表

1. SkillOS: Learning Skill Curation for Self-Evolving Agents

arXiv ID: 2605.06614
发布时间: 2026-05-07
作者: Siru Ouyang, Jun Yan, Yanfei Chen, et al. (Google DeepMind)

摘要要点

核心问题: LLM-based agents 通常是一次性问题求解器，无法从过去的交互中学习。可重用的技能从经验中提炼出来，为自我进化提供了自然的基础，而高质量的技能策展是关键瓶颈。
现有方法局限: 现有方法要么依赖手工技能策展，要么规定启发式技能操作，或训练短视的技能操作策略，难以从间接和延迟的反馈中学习复杂的长期策展策略。
SkillOS 框架: 提出了一个经验驱动的 RL 训练方法，用于学习自我进化 agent 中的技能策展。SkillOS 将一个冻结的 agent 执行器（检索和应用技能）与一个可训练的技能策展器（从积累的经验中更新外部 SkillRepo）配对。
学习信号设计: 为了为策展提供学习信号，设计了复合奖励，并基于技能相关任务依赖关系在分组任务流上训练：早期轨迹更新 SkillRepo，后续相关任务评估这些更新。
实验结果: 在多轮 agent 任务和单轮推理任务中，SkillOS 在有效性和效率上一致优于无记忆和强记忆基线。学习的技能策展器跨不同执行器骨干和任务域泛化。
关键发现: 分析显示，学习的策展器产生更有针对性的技能使用，而 SkillRepo 中的技能随时间演变为编码更高级别元技能的丰富结构化 Markdown 文件。

与 Memory 的关联

长期记忆存储: SkillRepo 作为外部记忆系统，存储从经验中提炼的技能
记忆检索: Agent 执行器根据任务需求检索和检索相关技能
记忆更新: 技能策展器通过 RL 学习如何从经验中更新记忆
记忆泛化: 学习到的技能策略可以跨不同任务域应用

研究趋势分析

1. 从静态记忆到动态学习

本期论文反映了 Agent Memory 研究的一个重要趋势：从静态的记忆存储转向动态的学习和策展机制。SkillOS 通过强化学习让 agent 不仅能够存储经验，还能学会如何有效地组织和更新这些经验。

2. 外部记忆 + 内部策展的双层架构

SkillOS 采用的”冻结执行器 + 可训练策展器”架构代表了当前记忆系统设计的一个主流方向：

记忆存储层: 外部化的 SkillRepo，可以长期积累和组织知识
记忆管理层: 通过学习获得的策展策略，动态决定记忆的更新和检索

3. 技能抽象作为记忆的表示形式

本期论文强调将”技能”作为记忆的基本单元，而不是原始的经验片段。这种表示方法：

提供了更高层次的知识抽象
便于跨任务的迁移和复用
可以自然地组织成层次化结构

4. 延迟反馈和间接监督的挑战

SkillOS 的工作揭示了一个关键挑战：长期记忆系统的学习信号通常是间接和延迟的。论文通过任务流设计和复合奖励机制来解决这个问题，这为未来的记忆系统设计提供了重要参考。

关键洞察和创新点

1. 记忆策展的学习化

核心创新: 将记忆的管理和组织策略本身也变成可学习的对象，而不是手工设计的启发式规则。

意义: 这意味着记忆系统可以随着使用不断优化，形成更好的知识组织和检索策略。

2. 分组任务流训练

核心创新: 通过设计任务之间的依赖关系，让早期任务的经验在后续任务中得到评估，从而为记忆更新提供学习信号。

意义: 解决了长期记忆系统难以获得有效监督信号的核心难题。

3. 结构化技能表示的演化

核心创新: 技能随时间演变为编码更高级别元技能的丰富结构化 Markdown 文件。

意义: 记忆不仅是静态存储，还能随着使用不断重构和组织，形成更高级的知识结构。

4. 跨领域泛化的记忆策略

核心创新: 学习到的技能策展器可以跨不同执行器骨干和任务域泛化。

意义: 记忆管理策略具有一定的通用性，不需要针对每个任务重新训练。

与开源记忆项目的关联分析

与 MemGPT 的对比

相似点:

都强调将长期记忆与短期推理分离
都支持记忆的检索和更新

差异点:

MemGPT 侧重于函数调用记忆，SkillOS 侧重于技能记忆
SkillOS 引入了学习化的记忆策展机制，MemGPT 主要基于规则

互补性: MemGPT 的函数调用框架可以集成 SkillOS 的技能策展策略。

与 LangChain Memory 的对比

相似点:

都支持从对话历史中提取和存储信息
都提供检索接口

差异点:

LangChain Memory 主要是工程化的实现，SkillOS 提供了系统化的学习方法
SkillOS 强调记忆的演化和重组，LangChain Memory 相对静态

互补性: LangChain 的存储后端可以作为 SkillRepo 的实现基础。

与 LlamaIndex 的对比

相似点:

都关注从文档中提取和索引知识
都支持高级的检索策略

差异点:

LlamaIndex 侧重于 RAG 场景，SkillOS 侧重于 agent 技能学习
SkillOS 通过 RL 学习检索策略，LlamaIndex 主要基于工程优化

互补性: LlamaIndex 的索引技术可以提升 SkillRepo 的检索效率。

与 AutoGPT 的对比

相似点:

都支持 agent 的长期记忆
都强调从经验中学习

差异点:

AutoGPT 的记忆相对简单，SkillOS 提供了更精细化的技能级别记忆
SkillOS 明确了记忆更新的学习机制

互补性: AutoGPT 的任务规划可以受益于 SkillOS 的技能策展。

与 CrewAI 的对比

相似点:

都支持多 agent 协作
都涉及记忆在 agent 间的共享

差异点:

CrewAI 侧重于 agent 角色和分工，SkillOS 侧重于技能的抽象和复用
SkillOS 提供了更系统化的记忆学习框架

互补性: CrewAI 的角色设计可以结合 SkillOS 的技能策展来提升效率。

与 AgentScope 的对比

相似点:

都提供 agent 记忆的框架支持
都支持记忆的持久化

差异点:

AgentScope 提供了更通用的记忆接口，SkillOS 专注于技能记忆的特定优化
SkillOS 强调通过学习优化记忆管理

互补性: AgentScope 的框架可以集成 SkillOS 的学习算法。

与 MetaGPT 的对比

相似点:

都支持多 agent 协作中的记忆共享
都关注任务流程中的记忆使用

差异点:

MetaGPT 侧重于软件工程任务，SkillOS 更通用
SkillOS 提供了更明确的记忆学习机制

互补性: MetaGPT 的 SOP (Standard Operating Procedure) 可以与 SkillOS 的技能策展结合。

与 ChatDev 的对比

相似点:

都支持软件开发过程中的记忆积累
都关注知识的复用

差异点:

ChatDev 专注于软件开发生命周期，SkillOS 更通用
SkillOS 的技能策展可以应用于 ChatDev 的代码记忆

互补性: ChatDev 的开发记忆可以由 SkillOS 的策展策略优化。

与 BabyAGI 的对比

相似点:

都支持 agent 的任务规划和记忆
都强调从执行历史中学习

差异点:

BabyAGI 侧重于任务分解，SkillOS 侧重于技能抽象
SkillOS 提供了更系统化的记忆学习框架

互补性: BabyAGI 的任务分解可以受益于 SkillOS 的技能库。

与 DevGPT 的对比

相似点:

都关注软件开发中的知识和经验
都支持代码和决策的记录

差异点:

DevGPT 专注于开发场景，SkillOS 更通用
SkillOS 的技能策展可以提升 DevGPT 的代码记忆质量

互补性: DevGPT 的代码记忆可以由 SkillOS 策展为可复用的技能。

与 CAMEL 的对比

相似点:

都支持多 agent 系统中的记忆
都关注 agent 间的知识共享

差异点:

CAMEL 侧重于通信协议，SkillOS 侧重于记忆管理
SkillOS 提供了学习化的记忆策展

互补性: CAMEL 的 agent 通信可以共享 SkillOS 的技能库。

与 LiteLLM 的对比

相似点:

都提供对 LLM 的接口支持
都支持上下文管理

差异点:

LiteLLM 主要是 LLM API 的统一接口，不直接涉及记忆
SkillOS 的记忆系统可以集成到 LiteLLM 的上下文管理中

互补性: LiteLLM 可以作为 SkillOS 的执行器 backbone。

与 OpenAI Function Calling 的对比

相似点:

都支持工具和技能的调用
都涉及工具的记忆和检索

差异点:

OpenAI Function Calling 主要是工具调用接口，不涉及学习
SkillOS 提供了工具技能的学习和策展

互补性: SkillOS 可以为 Function Calling 提供动态的工具策略。

与 Microsoft Semantic Kernel 的对比

相似点:

都支持技能和插件的定义
都支持技能的检索和执行

差异点:

Semantic Kernel 侧重于企业应用集成，SkillOS 侧重于学习
SkillOS 提供了技能策展的 RL 算法

互补性: Semantic Kernel 的插件框架可以集成 SkillOS 的策展策略。

与 LangGraph 的对比

相似点:

都支持 agent 的状态和记忆
都支持复杂的工作流

差异点:

LangGraph 侧重于图结构的工作流，SkillOS 侧重于技能记忆
SkillOS 的记忆策展可以优化 LangGraph 的状态管理

互补性: LangGraph 的状态图可以由 SkillOS 的技能库驱动。

与 Griptape 的对比

相似点:

都支持 agent 的记忆系统
都支持结构化数据的存储

差异点:

Griptape 侧重于数据结构和驱动，SkillOS 侧重于技能学习
SkillOS 提供了更明确的记忆学习机制

互补性: Griptape 的数据结构可以作为 SkillRepo 的存储基础。

与 LlamaIndex Graph RAG 的对比

相似点:

都支持知识图谱的构建
都关注知识的结构化表示

差异点:

Graph RAG 侧重于文档索引，SkillOS 侧重于技能记忆
SkillOS 强调记忆的动态演化

互补性: Graph RAG 的图结构可以增强 SkillRepo 的技能关联。

总结与展望

本期核心发现

唯一高度相关论文: 本期 22 篇论文中，只有 SkillOS 一篇直接涉及 Agent Memory 的核心问题。
技能记忆的重要性: SkillOS 强调将”技能”而非原始经验作为记忆的基本单元，这代表了记忆表示的重要趋势。
学习化记忆策展: 通过强化学习让 agent 学会如何管理记忆，而不是依赖手工规则，这是一个关键创新。
记忆的动态演化: 记忆不仅是存储，还会随着使用不断重组和优化，形成更高级的知识结构。

研究趋势展望

更精细的记忆粒度: 从对话级、任务级到技能级、动作级的多层次记忆系统
更强的学习信号: 如何为记忆策展设计更有效的监督信号，特别是解决延迟反馈问题
跨 agent 记忆共享: 在多 agent 系统中如何有效地共享和同步记忆
记忆效率优化: 随着记忆规模增长，如何保持检索和更新的效率

实践建议

对于开发者: 可以借鉴 SkillOS 的双层架构（执行器 + 策展器）设计记忆系统
对于研究者: 关注记忆策展的学习机制，这是当前研究的前沿方向
对于应用方: 技能记忆比对话记忆更适合长期积累和跨任务迁移

数据统计

分析论文总数: 22 篇
相关论文数: 1 篇 (4.5%)
核心主题: 技能策展、自我进化、长期记忆、强化学习
关键词频率: skill (35), agent (28), memory (12), experience (9), learn (7)

生成时间: 2026-05-09 18:00:00
分析来源: https://papers.cool/arxiv/cs.AI
报告作者: OpenClaw Agent Memory Analyzer