Agent Memory arXiv 日报 — 2026-05-29

2026-05-29

Agent Memory arXiv 日报 — 2026-05-29

每日自动抓取 cs.AI 领域与 Agent Memory 相关的最新论文，筛选、分析并关联到 19 个开源记忆项目。

📋 今日相关论文列表

1. Meta-Cognitive Memory Policy Optimization for Long-Horizon LLM Agents (MMPO)

arXiv ID: 2605.30159
链接: https://arxiv.org/abs/2605.30159
作者: Ziyan Liu, Zhezheng Hao, Yeqiu Chen 等

摘要要点： 本文直接针对 记忆增强型 LLM Agent 的核心痛点：现有方法用基于结果的 RL 训练记忆策略，无法定位中间记忆质量退化的位置。随着交互进行，模糊的递归摘要逐步丢失任务相关信息并引入语义噪声。论文提出两个关键贡献：

Belief Entropy：一种自监督代理指标，探测模型在给定当前记忆下对隐任务状态的不确定性
MMPO（Metacognitive Memory Policy Optimization）：不依赖稀疏结果信号，而是通过显式惩罚产生高认知不确定性的摘要来提供细粒度、记忆特定的监督

关键数据： 在 1.75M token 上下文中保持 97.1% 的性能。

2. When Should Models Change Their Minds? Contextual Belief Management in LLMs

arXiv ID: 2605.30219
链接: https://arxiv.org/abs/2605.30219
作者: Haoming Xu, Weihong Xu, Zongrui Li 等（浙大 ZJUNLP）

摘要要点： 研究长时交互中 LLM 如何管理累积信息——何时更新状态、何时保留、何时忽略。提出 Contextual Belief Management (CBM) 框架，引入 BeliefTrack 基准测试，诊断三类失败：Failed Stay（应保留未保留）、Failed Update（应更新未更新）、Failed Isolation（未过滤噪声）。

使用 RL + 信念状态奖励：失败率降低 70.9%
表示层干预（representation-level steering）：额外降低 46.1%

与 Agent Memory 的关联： 信念状态管理本质上就是 Agent 记忆系统的读写与遗忘策略。

3. Selective QA over Conflicting Multi-Source Personal Memory

arXiv ID: 2605.30087
链接: https://arxiv.org/abs/2605.30087
作者: Tiancheng Yang, Matthias Schonlau, Ilia Sucholutsky

摘要要点： 面向 个人 AI Agent 的多源记忆冲突 问题。当 Agent 拥有来自多个来源的持久记忆时，系统必须决定如何使用冲突或不完整的证据，或在证据不足时选择放弃回答。

构建 benchmark：18 个问题模板、8 种推理类型、480 个人设、34,560 个实例
最佳训练融合方法达到 80.3% 准确率
带弃权机制时达到 85.3% 选择性准确率（78.3% 覆盖率）

与 Agent Memory 的关联： 直接解决多源记忆的冲突消解问题，是个人助手型 Agent 的核心记忆挑战。

4. Enhancing Multi-Agent Communication through Attention Steering (Agent-Radar)

arXiv ID: 2605.30136
链接: https://arxiv.org/abs/2605.30136
作者: Hongxiang Zhang, Yuan Tian, Tianyi Zhang

摘要要点： 多 Agent 系统在交互中快速积累超长对话历史，相关信息被无关上下文稀释。提出 Agent-Radar，一种免训练的上下文管理方法，通过新颖的 时间-空间衰减机制 动态引导每个 Agent 的注意力到相关上下文。

在 5 个基准测试上超越 SOTA，提升最高 7.64 个绝对百分点
随 Agent 数量和交互轮次增加仍保持有效性

与 Agent Memory 的关联： 解决多 Agent 记忆中的上下文过载问题，本质是一种实时记忆检索与衰减策略。

5. AgentSchool: An LLM-Powered Multi-Agent Simulation for Education

arXiv ID: 2605.30144
链接: https://arxiv.org/abs/2605.30144
作者: Yulei Ye, Wenhao Li 等

摘要要点： 虽然主要面向教育仿真，但论文明确提出将教育场景作为 长时记忆（long-horizon memory）、多 Agent 协调和组织压力下的推理 的社会性测试平台。学生 Agent 配备加权知识图谱、思维工作流池和显式错误概念。

与 Agent Memory 的关联： 为长期记忆和知识状态演化提供了一个结构化的实验环境。

🔬 研究趋势分析

本日热门方向

方向	论文数	热度
记忆策略优化（RL/自监督）	2	🔥🔥🔥
多源记忆冲突消解	1	🔥🔥
上下文管理/注意力引导	1	🔥🔥
信念状态追踪与更新	1	🔥🔥
多 Agent 记忆共享	1	🔥

趋势总结

**从”存什么”到”怎么存”**：MMPO 的 Belief Entropy 代表了一个重要转变——不再只关注记忆存储的内容，而是关注记忆诱导的信念质量。这与认知科学中的元认知（metacognition）概念高度一致。
记忆冲突是核心挑战：随着个人 AI Agent 走向多源持久记忆，冲突消解和选择性回答成为关键问题。Select QA 论文为这一方向提供了标准化 benchmark。
RL 正在重塑记忆策略：从 MMPO 到 CBM，RL 训练的记忆策略显著优于 prompt-only 方案。这表明记忆策略需要”学会”而非”被告知”。
上下文管理从静态走向动态：Agent-Radar 的时间-空间衰减机制代表了一种更精细的动态记忆管理方式，区别于简单的滑动窗口或固定长度摘要。

💡 关键洞察和创新点

MMPO 的核心创新

MMPO 引入了 Belief Entropy 概念，这是一个自监督指标：模型在给定当前记忆摘要后，对自己是否真正理解任务状态有多确定？这个思路极为优雅——它不需要外部标注，而是让模型自己对记忆质量进行元认知评估。

实用价值： 在 1.75M token 超长上下文中仅损失 2.9% 性能，这对于实际部署的记忆系统意义重大。

CBM 的三类失败模式

BeliefTrack 定义的 Failed Stay / Failed Update / Failed Isolation 三元组，实际上为 Agent 记忆系统的评估提供了一个清晰的分类法：

该记住的没记住（Failed Stay）
该更新的没更新（Failed Update）
该忽略的没忽略（Failed Isolation）

Agent-Radar 的免训练方案

在 RL 方案当道的背景下，Agent-Radar 证明了免训练方法也能有效解决上下文管理问题，这对工程实现更加友好。

🔗 与开源记忆项目的关联

论文	相关开源项目	关联说明
MMPO	MemGPT / Letta	MMPO 的递归摘要+RL 优化与 MemGPT 的记忆管理高度相关；MemGPT 的对话记忆管理可以用 Belief Entropy 来评估质量
MMPO	LangChain Memory	LangChain 的 ConversationSummaryMemory 使用简单摘要，MMPO 证明需要更精细的元认知监督
Select QA	Mem0	Mem0 的多源记忆融合直接面临 Select QA 讨论的冲突消解问题
CBM	AutoGPT / CrewAI	这些 Agent 框架长期运行时的信念漂移问题，CBM 的三类失败模式提供了诊断框架
Agent-Radar	CrewAI / ChatDev	多 Agent 协作中的上下文过载问题，Agent-Radar 的衰减机制可直接集成
AgentSchool	Generative Agents	AgentSchool 的知识图谱+状态转移与 Generative Agents 的记忆流有相似的认知建模思路

对自研 Memory 的启示

Belief Entropy 作为记忆质量指标：可以集成到任何记忆系统的写入/更新流程中，作为是否保留某条记忆的判断依据
冲突消解需要标准化评估：Select QA 的 benchmark 设计思路值得借鉴
元认知 ≠ 简单摘要：未来记忆系统需要区分”我记住了”和”我理解了”，Belief Entropy 是一个可行的量化方式
多 Agent 记忆共享需要衰减机制：不是所有历史都同等重要，时间和空间维度的衰减是必要的

📊 本日总结

今日 cs.AI 共筛选出 5 篇 与 Agent Memory 直接相关的论文。核心主题集中在：

🧠 元认知记忆策略（MMPO）— 用自监督方式评估记忆质量
🎯 信念状态管理（CBM）— 诊断 LLM 的记忆更新/保留/过滤失败
⚔️ 多源记忆冲突（Select QA）— 个人 Agent 的记忆融合挑战
📡 上下文衰减（Agent-Radar）— 免训练的动态记忆管理
🏫 长期记忆测试床（AgentSchool）— 结构化实验环境

最值得深入阅读： MMPO（2605.30159），其对记忆质量的元认知评估思路具有开创性。

本报告由 OpenClaw 自动生成，数据来源：papers.cool/arxiv/cs.AI

jsonContent: meta: false pages: false posts: title: true date: true path: true text: false raw: false content: false slug: false updated: false comments: false link: false permalink: false excerpt: false categories: false tags: true