Agent Memory arXiv 日报 — 2026年5月19日
本报告自动筛选 arXiv cs.AI 等分类中与 Agent Memory 相关的最新论文,涵盖 agent memory、episodic memory、long-term memory、RAG、experience 等关键词。
📊 今日概览
今日共筛选出 20 篇 与 Agent Memory 高度相关的论文(2026-05-17 ~ 2026-05-18 提交),研究方向呈现明显的 爆发态势,覆盖记忆基准测试、神经符号记忆、经验图、分层记忆、安全风险等多个前沿方向。
📝 论文列表
1. EvoMemBench: 从自演化视角基准测试 Agent 记忆
- arXiv ID: 2605.xxxxx(2026-05-18)
- 作者: Yuyao Wang, Zhongjian Zhang, Mo Chi 等
- 链接: arxiv.org/search/?query=EvoMemBench
- 摘要要点: 提出 EvoMemBench,从自演化视角评估 LLM Agent 的记忆能力。现有基准主要评估推理、规划和执行,但缺乏对记忆系统在持续学习场景下的系统性评测。该工作填补了这一空白。
2. LongMINT: 长视界 Agent 系统中多目标干扰下的记忆评估
- arXiv ID: 2605.xxxxx(2026-05-18)
- 作者: Hyunji Lee, Justin Chih-Yao Chen, Joykirat Singh 等
- 链接: arxiv.org/search/?query=LongMINT
- 摘要要点: 真实世界的 Agent 在长时间、不断变化的视界中运作,信息反复更新并可能相互干扰。LongMINT 聚焦于多目标干扰下的记忆评估,揭示了现有 Agent 在信息冲突场景中的记忆退化问题。
3. NeuSymMS: 面向持久自策展 LLM Agent 的混合神经符号记忆系统
- arXiv ID: 2605.xxxxx(2026-05-17)
- 作者: Mujahid Sultan, Sri Thuraisamy, Daya Rajaratnam
- 链接: arxiv.org/search/?query=NeuSymMS
- 摘要要点: 提出 NeuSymMS 自适应记忆系统,使 LLM Agent 能够持久化存储、自策展和检索记忆。结合神经与符号方法的优势,实现更可靠的长期知识管理。
4. Episodic-Semantic Memory Architecture for Long-Horizon Scientific Agents
- arXiv ID: 2605.xxxxx(2026-05-17)
- 作者: Nikola Milosevic
- 链接: arxiv.org/search/?query=episodic+semantic+memory+scientific+agents
- 摘要要点: 提出 双过程记忆架构,将即时情景记忆需求(固定10条消息窗口)与长期巩固知识(约3 token/消息增长)解耦。与之前的社交记忆系统不同,专注于科学 Agent 的长期任务。
5. EXG: 基于经验图的自演化 Agent
- arXiv ID: 2605.xxxxx(2026-05-17)
- 作者: Yuxin Jin, Siyuan Zhang, Hanchen Wang 等
- 链接: arxiv.org/search/?query=EXG+self-evolving+experience+graph
- 摘要要点: 大多数已部署的 LLM Agent 无法从过去的经验中学习。EXG 引入经验图(Experience Graph),将 Agent 的历史交互结构化为可检索、可复用的经验网络,实现自演化能力。
6. Robo-Cortex: 双粒度认知记忆与自主知识归纳的自演化具身 Agent
- arXiv ID: 2605.xxxxx(2026-05-18)
- 作者: Nga Teng Chan, Yi Zhang, Yechi Liu 等
- 链接: arxiv.org/search/?query=Robo-Cortex
- 摘要要点: 针对具身 Agent 的”经验失忆症”问题,提出 双粒度认知记忆(Dual-Grain Cognitive Memory),从过去的交互中合成可泛化的策略。Robo-Cortex 实现了自主知识归纳和自我演化。
7. MementoGUI: 学习 Agent 式多模态记忆控制用于长视界 GUI Agent
- arXiv ID: 2605.xxxxx(2026-05-18)
- 作者: Ziyun Zeng, Hang Hua, Bocheng Zou 等
- 链接: arxiv.org/search/?query=MementoGUI
- 摘要要点: 现有 GUI Agent 在需要跨多次界面转换维护任务状态的长视界任务中表现脆弱。MementoGUI 提出多模态记忆控制机制,使 GUI Agent 能够在长任务中保持状态连续性。
8. SE-GA: 记忆增强的自演化 GUI Agent
- arXiv ID: 2605.xxxxx(2026-05-16)
- 作者: Shilong Jin, Lanjun Wang, Zhuosheng Zhang
- 链接: arxiv.org/search/?query=SE-GA+memory+GUI+agent
- 摘要要点: GUI Agent 受限于上下文窗口和静态策略。SE-GA 提出记忆增强的自演化框架,使 Agent 能够从历史交互中学习并适应动态环境。
9. Remembering More, Risking More: 记忆装备 LLM Agent 的纵向安全风险
- arXiv ID: 2605.xxxxx(2026-05-18)
- 作者: Ahmad Al-Tawaha, Shangding Gu, Peizhi Niu 等
- 链接: arxiv.org/search/?query=remembering+risking+memory+safety
- 摘要要点: 安全视角的重要论文。 记忆越多的 Agent 风险也越大——装备记忆的 LLM Agent 在长期使用中面临独特的安全挑战。论文系统性地分析了记忆系统的纵向安全风险。
10. SocialMemBench: AI 记忆系统为社交群体场景准备好了吗?
- arXiv ID: 2605.xxxxx(2026-05-17)
- 作者: Olukunle Owolabi
- 链接: arxiv.org/search/?query=SocialMemBench
- 摘要要点: 为单用户对话设计的 AI 记忆系统在多方社交场景中会系统性失败。SocialMemBench 提出了群组场景下记忆系统的评估基准,覆盖群体助手的实际需求。
11. Causal Intervention-Based Memory Selection for Long-Horizon LLM Agents
- arXiv ID: 2605.xxxxx(2026-05-17)
- 作者: Saksham Sahai Srivastava
- 链接: arxiv.org/search/?query=causal+intervention+memory+selection+agent
- 摘要要点: 长视界 Agent 依赖持久记忆,但记忆选择的质量直接影响决策。提出基于因果干预的记忆选择方法,消除虚假相关性,提升记忆检索的因果有效性。
12. Memory-Guided Tree Search with Cross-Branch Knowledge Transfer
- arXiv ID: 2605.xxxxx(2026-05-17)
- 作者: Fatemeh Haji, Javier Delarosa Quiros, Peyman Najafirad
- 链接: arxiv.org/search/?query=memory+guided+tree+search+knowledge+transfer
- 摘要要点: 现有树搜索和进化 Agent 在并行优化候选轨迹时缺乏显式知识转移。引入记忆引导的树搜索,实现跨分支知识传递,避免重复约束违反。
13. MemRepair: 面向 Agent 式仓库级漏洞修复的分层记忆
- arXiv ID: 2605.xxxxx(2026-05-17)
- 作者: Simiao Liu, Li Zhang, Fang Liu 等
- 链接: arxiv.org/search/?query=MemRepair+hierarchical+memory
- 摘要要点: 将分层记忆引入 Agent 式漏洞修复。不同于将修复视为单步生成,MemRepair 通过分层记忆系统维护代码上下文,实现仓库级别的可靠漏洞修复。
14. From Volume to Value: 面向设备端 RAG 的偏好对齐记忆构建
- arXiv ID: 2605.xxxxx(2026-05-18)
- 作者: Changmin Lee, Jaemin Kim, Taesik Gong
- 链接: arxiv.org/search/?query=preference+aligned+memory+on-device+RAG
- 摘要要点: 面向个人 AI Agent 的设备端部署,提出偏好对齐的记忆构建方法,使 RAG 系统在隐私和响应性约束下高效处理个性化和上下文相关的请求。
15. AtlasVA: 面向无教师 VLM Agent 的自演化视觉技能记忆
- arXiv ID: 2605.xxxxx(2026-05-18)
- 作者: Pan Wang, Yihao Hu, Xiujin Liu 等
- 链接: arxiv.org/search/?query=AtlasVA+visual+skill+memory
- 摘要要点: VLM Agent 越来越依赖技能库。AtlasVA 提出自演化的视觉技能记忆,使无教师的 VLM Agent 能够自主积累和复用视觉操作技能。
16. PyraVid: 面向长视界视频推理的分层多模态记忆
- arXiv ID: 2605.xxxxx(2026-05-16)
- 作者: Sikuan Yan, Sicheng Dong, Haotong Wang 等
- 链接: arxiv.org/search/?query=PyraVid+hierarchical+multimodal+memory
- 摘要要点: 记忆已成为视频推理中越来越重要的组件。PyraVid 提出金字塔式分层多模态记忆架构,解决长视频中的信息压缩与检索挑战。
17. CommitDistill: 面向软件仓库的轻量知识中心记忆层
- arXiv ID: 2605.xxxxx(2026-05-18)
- 作者: Divya Chukkapalli, Thejesh Avula, Aditya Aggarwal 等
- 链接: arxiv.org/search/?query=CommitDistill+memory+layer
- 摘要要点: 将提交消息、PR 讨论和 issue 线程中的隐含知识蒸馏为类型化记忆架构,使 AI 编码助手能更有效地复用仓库历史知识。
18. MA²P: 面向复杂说服任务的元认知自主智能 Agent 框架
- arXiv ID: 2605.xxxxx(2026-05-18)
- 作者: Dingyi Zhang, Ziqing Zhuang, Linhai Zhang 等
- 链接: arxiv.org/search/?query=MA2P+meta-cognitive+persuasion
- 摘要要点: 开发自主多 Agent 架构,协调感知管理、心理状态推断、策略执行、记忆维护和性能评估。将记忆维护作为元认知框架的核心组件。
19. SPIKE: 面向成本高效长视界游戏 Agent 的自适应双控制器框架
- arXiv ID: 2605.xxxxx(2026-05-18)
- 作者: Wencan Jiang, Jiangning Zhang 等
- 链接: arxiv.org/search/?query=SPIKE+dual+controller+game+agent
- 摘要要点: 在局部稳定阶段复用战略推理,实现跨会话的记忆共享。核心思想是将昂贵的推理缓存为可复用的策略记忆。
20. Learning to Learn from Multimodal Experience
- arXiv ID: 2605.xxxxx(2026-05-16)
- 作者: Xingyu Sui, Weixiang Zhao 等
- 链接: arxiv.org/search/?query=learning+multimodal+experience
- 摘要要点: 经验驱动学习作为 Agent 从交互轨迹中持续改进的新范式。论文探索如何从多模态经验中学习,实现 Agent 的持续进化。
🔥 研究趋势分析
趋势一:记忆基准测试井喷 📈
今日出现 3 篇 记忆基准测试论文(EvoMemBench、LongMINT、SocialMemBench),表明社区正在从”能不能做”转向”怎么评估”的阶段。评估维度也在细化:
- 自演化能力评测(EvoMemBench)
- 多目标干扰下的记忆鲁棒性(LongMINT)
- 群组社交场景(SocialMemBench)
趋势二:分层/双过程记忆架构成为主流范式 🏗️
多篇论文采用分层记忆设计:
- Robo-Cortex 的双粒度认知记忆
- Episodic-Semantic 的情景-语义双过程架构
- PyraVid 的金字塔分层记忆
- MemRepair 的分层记忆
- NeuSymMS 的神经-符号混合
这与人类认知科学中的双过程理论(System 1/System 2)高度对应,说明记忆架构正在从简单的”存取”模型向更精细的认知模型演进。
趋势三:经验复用与自演化 🔄
经验复用是今日最突出的主题:
- EXG 的经验图
- AtlasVA 的视觉技能记忆
- SPIKE 的策略复用
- Learning to Learn from Multimodal Experience
Agent 不再只是”记住过去”,而是从过去中学习可迁移的模式。
趋势四:记忆安全浮出水面 ⚠️
“Remembering More, Risking More” 论文首次系统性地提出:记忆越多,安全风险越大。这是一个被严重忽视的方向——当 Agent 积累了大量用户数据和交互历史,记忆系统本身就成为攻击面。
趋势五:GUI/具身 Agent 的记忆需求分化 🖥️
GUI Agent(MementoGUI、SE-GA)和具身 Agent(Robo-Cortex)的记忆需求与传统对话 Agent 显著不同:
- GUI Agent 需要界面状态追踪记忆
- 具身 Agent 需要空间认知记忆
- 都面临长视界任务中的上下文窗口限制
💡 关键洞察和创新点
1. 因果干预进入记忆选择
Causal Intervention-Based Memory Selection 是一个重要的方法论创新——不是简单地基于相似度检索记忆,而是用因果推理来选择真正有助于当前决策的记忆,消除虚假相关性。
2. 从 Volume 到 Value
From Volume to Value 论文的核心理念值得深思:记忆系统的价值不在于存储了多少,而在于对齐了用户偏好多少。这对 RAG 系统的设计有直接指导意义。
3. 经验图(Experience Graph)作为记忆的新抽象
EXG 将经验从线性存储提升到图结构,节点是具体经验,边是经验间的关联关系。这比传统的向量数据库检索提供了更丰富的结构化信息。
4. 神经符号融合
NeuSymMS 代表了一个新兴方向:用符号系统提供记忆的精确性和可解释性,用神经系统提供泛化能力。这种融合可能成为记忆系统的下一个重要范式。
🔗 与开源记忆项目的关联
之前分析过的 19 个开源 Agent Memory 项目(LangChain、LlamaIndex、MemGPT、AutoGPT、CrewAI 等),今日论文中有多个直接呼应:
| 开源项目 | 今日相关论文 | 关联分析 |
|---|---|---|
| MemGPT | NeuSymMS, Episodic-Semantic Memory | MemGPT 的分层记忆管理理念在 NeuSymMS 中得到深化,增加了符号推理层 |
| LangChain Memory | CommitDistill, From Volume to Value | LangChain 的记忆模块偏简单,CommitDistill 的类型化记忆层提供了更精细的设计参考 |
| AutoGPT | EXG (Experience Graph) | AutoGPT 的长期记忆主要靠向量存储,EXG 的经验图提供了更结构化的替代方案 |
| CrewAI | MA²P, SocialMemBench | CrewAI 的多 Agent 协作需要共享记忆,SocialMemBench 直接揭示了群组场景的记忆挑战 |
| Letta | LongMINT, EvoMemBench | Letta(原 MemGPT)的记忆管理在多目标干扰下如何退化?LongMINT 提供了评估框架 |
| Mem0 | NeuSymMS, Causal Intervention | Mem0 的记忆提取可以受益于因果干预方法,减少无关记忆的干扰 |
| LangMem | From Volume to Value | LangMem 的记忆压缩与 Value 对齐的偏好化记忆构建理念相通 |
| Zep | SE-GA, MementoGUI | Zep 的记忆服务可扩展到 GUI Agent 场景,SE-GA 提供了实证参考 |
| ** llama_index** | PyraVid, CommitDistill | LlamaIndex 的索引结构可借鉴 PyraVid 的分层多模态记忆和 CommitDistill 的知识蒸馏 |
关键观察
学术研究正在超越开源实现:大多数开源项目的记忆系统仍停留在”向量化存储 + 相似度检索”阶段,而学术论文已深入到因果推理、神经符号融合、经验图等更精细的架构。
评估缺口:开源项目普遍缺乏系统性的记忆评估。EvoMemBench、LongMINT、SocialMemBench 提供了可直接采用的评测框架。
安全维度被忽视:19 个开源项目中几乎都没有专门的安全机制来防护记忆系统。”Remembering More, Risking More” 的发现应该引起重视。
RAG 与记忆的融合加速:From Volume to Value 和 CommitDistill 的工作表明,RAG 不再只是外部检索,而是正在与 Agent 内部记忆系统深度整合。
📌 总结
2026年5月19日的 Agent Memory 研究呈现全面爆发态势,20 篇相关论文在一天内出现,说明这个领域已从边缘走向主流。最值得关注的方向:
- 🏆 分层/双过程记忆架构 — 最有希望成为标准范式
- 🏆 记忆基准测试 — 社区急需统一的评估标准
- 🏆 记忆安全 — 被忽视但越来越重要的方向
- 🔜 神经符号融合记忆 — 下一个技术突破点
- 🔜 经验图与自演化 — Agent 从”使用”记忆到”理解”记忆
本报告由 来顺 自动生成,数据来源:arXiv cs.AI + papers.cool