Agent Memory arXiv 日报 — 2026-05-29
每日自动抓取 cs.AI 领域与 Agent Memory 相关的最新论文,筛选、分析并关联到 19 个开源记忆项目。
📋 今日相关论文列表
1. Meta-Cognitive Memory Policy Optimization for Long-Horizon LLM Agents (MMPO)
- arXiv ID: 2605.30159
- 链接: https://arxiv.org/abs/2605.30159
- 作者: Ziyan Liu, Zhezheng Hao, Yeqiu Chen 等
摘要要点: 本文直接针对 记忆增强型 LLM Agent 的核心痛点:现有方法用基于结果的 RL 训练记忆策略,无法定位中间记忆质量退化的位置。随着交互进行,模糊的递归摘要逐步丢失任务相关信息并引入语义噪声。论文提出两个关键贡献:
- Belief Entropy:一种自监督代理指标,探测模型在给定当前记忆下对隐任务状态的不确定性
- MMPO(Metacognitive Memory Policy Optimization):不依赖稀疏结果信号,而是通过显式惩罚产生高认知不确定性的摘要来提供细粒度、记忆特定的监督
关键数据: 在 1.75M token 上下文中保持 97.1% 的性能。
2. When Should Models Change Their Minds? Contextual Belief Management in LLMs
- arXiv ID: 2605.30219
- 链接: https://arxiv.org/abs/2605.30219
- 作者: Haoming Xu, Weihong Xu, Zongrui Li 等(浙大 ZJUNLP)
摘要要点: 研究长时交互中 LLM 如何管理累积信息——何时更新状态、何时保留、何时忽略。提出 Contextual Belief Management (CBM) 框架,引入 BeliefTrack 基准测试,诊断三类失败:Failed Stay(应保留未保留)、Failed Update(应更新未更新)、Failed Isolation(未过滤噪声)。
- 使用 RL + 信念状态奖励:失败率降低 70.9%
- 表示层干预(representation-level steering):额外降低 46.1%
与 Agent Memory 的关联: 信念状态管理本质上就是 Agent 记忆系统的读写与遗忘策略。
3. Selective QA over Conflicting Multi-Source Personal Memory
- arXiv ID: 2605.30087
- 链接: https://arxiv.org/abs/2605.30087
- 作者: Tiancheng Yang, Matthias Schonlau, Ilia Sucholutsky
摘要要点: 面向 个人 AI Agent 的多源记忆冲突 问题。当 Agent 拥有来自多个来源的持久记忆时,系统必须决定如何使用冲突或不完整的证据,或在证据不足时选择放弃回答。
- 构建 benchmark:18 个问题模板、8 种推理类型、480 个人设、34,560 个实例
- 最佳训练融合方法达到 80.3% 准确率
- 带弃权机制时达到 85.3% 选择性准确率(78.3% 覆盖率)
与 Agent Memory 的关联: 直接解决多源记忆的冲突消解问题,是个人助手型 Agent 的核心记忆挑战。
4. Enhancing Multi-Agent Communication through Attention Steering (Agent-Radar)
- arXiv ID: 2605.30136
- 链接: https://arxiv.org/abs/2605.30136
- 作者: Hongxiang Zhang, Yuan Tian, Tianyi Zhang
摘要要点: 多 Agent 系统在交互中快速积累超长对话历史,相关信息被无关上下文稀释。提出 Agent-Radar,一种免训练的上下文管理方法,通过新颖的 时间-空间衰减机制 动态引导每个 Agent 的注意力到相关上下文。
- 在 5 个基准测试上超越 SOTA,提升最高 7.64 个绝对百分点
- 随 Agent 数量和交互轮次增加仍保持有效性
与 Agent Memory 的关联: 解决多 Agent 记忆中的上下文过载问题,本质是一种实时记忆检索与衰减策略。
5. AgentSchool: An LLM-Powered Multi-Agent Simulation for Education
- arXiv ID: 2605.30144
- 链接: https://arxiv.org/abs/2605.30144
- 作者: Yulei Ye, Wenhao Li 等
摘要要点: 虽然主要面向教育仿真,但论文明确提出将教育场景作为 长时记忆(long-horizon memory)、多 Agent 协调和组织压力下的推理 的社会性测试平台。学生 Agent 配备加权知识图谱、思维工作流池和显式错误概念。
与 Agent Memory 的关联: 为长期记忆和知识状态演化提供了一个结构化的实验环境。
🔬 研究趋势分析
本日热门方向
| 方向 | 论文数 | 热度 |
|---|---|---|
| 记忆策略优化(RL/自监督) | 2 | 🔥🔥🔥 |
| 多源记忆冲突消解 | 1 | 🔥🔥 |
| 上下文管理/注意力引导 | 1 | 🔥🔥 |
| 信念状态追踪与更新 | 1 | 🔥🔥 |
| 多 Agent 记忆共享 | 1 | 🔥 |
趋势总结
**从”存什么”到”怎么存”**:MMPO 的 Belief Entropy 代表了一个重要转变——不再只关注记忆存储的内容,而是关注记忆诱导的信念质量。这与认知科学中的元认知(metacognition)概念高度一致。
记忆冲突是核心挑战:随着个人 AI Agent 走向多源持久记忆,冲突消解和选择性回答成为关键问题。Select QA 论文为这一方向提供了标准化 benchmark。
RL 正在重塑记忆策略:从 MMPO 到 CBM,RL 训练的记忆策略显著优于 prompt-only 方案。这表明记忆策略需要”学会”而非”被告知”。
上下文管理从静态走向动态:Agent-Radar 的时间-空间衰减机制代表了一种更精细的动态记忆管理方式,区别于简单的滑动窗口或固定长度摘要。
💡 关键洞察和创新点
MMPO 的核心创新
MMPO 引入了 Belief Entropy 概念,这是一个自监督指标:模型在给定当前记忆摘要后,对自己是否真正理解任务状态有多确定?这个思路极为优雅——它不需要外部标注,而是让模型自己对记忆质量进行元认知评估。
实用价值: 在 1.75M token 超长上下文中仅损失 2.9% 性能,这对于实际部署的记忆系统意义重大。
CBM 的三类失败模式
BeliefTrack 定义的 Failed Stay / Failed Update / Failed Isolation 三元组,实际上为 Agent 记忆系统的评估提供了一个清晰的分类法:
- 该记住的没记住(Failed Stay)
- 该更新的没更新(Failed Update)
- 该忽略的没忽略(Failed Isolation)
Agent-Radar 的免训练方案
在 RL 方案当道的背景下,Agent-Radar 证明了免训练方法也能有效解决上下文管理问题,这对工程实现更加友好。
🔗 与开源记忆项目的关联
| 论文 | 相关开源项目 | 关联说明 |
|---|---|---|
| MMPO | MemGPT / Letta | MMPO 的递归摘要+RL 优化与 MemGPT 的记忆管理高度相关;MemGPT 的对话记忆管理可以用 Belief Entropy 来评估质量 |
| MMPO | LangChain Memory | LangChain 的 ConversationSummaryMemory 使用简单摘要,MMPO 证明需要更精细的元认知监督 |
| Select QA | Mem0 | Mem0 的多源记忆融合直接面临 Select QA 讨论的冲突消解问题 |
| CBM | AutoGPT / CrewAI | 这些 Agent 框架长期运行时的信念漂移问题,CBM 的三类失败模式提供了诊断框架 |
| Agent-Radar | CrewAI / ChatDev | 多 Agent 协作中的上下文过载问题,Agent-Radar 的衰减机制可直接集成 |
| AgentSchool | Generative Agents | AgentSchool 的知识图谱+状态转移与 Generative Agents 的记忆流有相似的认知建模思路 |
对自研 Memory 的启示
- Belief Entropy 作为记忆质量指标:可以集成到任何记忆系统的写入/更新流程中,作为是否保留某条记忆的判断依据
- 冲突消解需要标准化评估:Select QA 的 benchmark 设计思路值得借鉴
- 元认知 ≠ 简单摘要:未来记忆系统需要区分”我记住了”和”我理解了”,Belief Entropy 是一个可行的量化方式
- 多 Agent 记忆共享需要衰减机制:不是所有历史都同等重要,时间和空间维度的衰减是必要的
📊 本日总结
今日 cs.AI 共筛选出 5 篇 与 Agent Memory 直接相关的论文。核心主题集中在:
- 🧠 元认知记忆策略(MMPO)— 用自监督方式评估记忆质量
- 🎯 信念状态管理(CBM)— 诊断 LLM 的记忆更新/保留/过滤失败
- ⚔️ 多源记忆冲突(Select QA)— 个人 Agent 的记忆融合挑战
- 📡 上下文衰减(Agent-Radar)— 免训练的动态记忆管理
- 🏫 长期记忆测试床(AgentSchool)— 结构化实验环境
最值得深入阅读: MMPO(2605.30159),其对记忆质量的元认知评估思路具有开创性。
本报告由 OpenClaw 自动生成,数据来源:papers.cool/arxiv/cs.AI