Agent Memory arXiv 日报（2026-05-18）

2026-05-18

Agent Memory arXiv 日报 — 2026年5月18日

本报告自动筛选 arXiv cs.AI / cs.CL 领域中与 Agent Memory 相关的最新论文，涵盖记忆增强、长期记忆、检索增强生成（RAG）、情景记忆等方向。

📋 今日相关论文一览

1. FORGE: Self-Evolving Agent Memory With No Weight Updates via Population Broadcast

arXiv ID: 2605.16233
链接: https://arxiv.org/abs/2605.16233
作者: Igor Bogdanov, Chung-Horng Lung, Thomas Kunz, Jie Gao, Adrian Taylor, Marzia Zaman
关键词: 自演化记忆、种群广播、ReAct Agent、Reflexion

摘要要点:

FORGE 提出一种基于种群的协议，通过自然语言记忆（Rules / Examples / Mixed）让 LLM Agent 在无需梯度更新的情况下自我进化。核心机制：

内循环： Reflexion 风格，将失败轨迹转化为可复用知识
外循环： 将最优个体的记忆广播至整个种群，并通过 graduation 机制冻结已收敛的个体
在 CybORG CAGE-2 网络防御任务上，相比 zero-shot 提升 1.7-7.7×，相比 Reflexion 提升 29-72%
关键发现：种群广播是性能增益的核心驱动力；Examples 表现最强，Rules 在成本上更优

2. RecMem: Recurrence-based Memory Consolidation for Efficient and Effective Long-Running LLM Agents

arXiv ID: 2605.16045
链接: https://arxiv.org/abs/2605.16045
作者: Zijie Dai, Shiyuan Deng, Sheng Guan, Yizhou Tian, Xin Yao, Xiao Yan, James Cheng
关键词: 记忆巩固、递归触发、长期运行 Agent、token 效率

摘要要点:

RecMem 重新思考”何时”进行记忆巩固。传统方法对每条交互都调用 LLM 提取记忆，导致巨大 token 消耗。RecMem 的创新：

潜意识的记忆层： 用轻量 embedding 模型存储原始交互
递归触发机制： 仅当语义相似的交互出现持续性递归时，才调用 LLM 提取情景记忆和语义记忆
语义精炼： 恢复记忆提取过程中遗漏的细粒度事实
相比三种 SOTA 记忆系统，token 成本降低 **87%**，同时准确率更高

3. DimMem: Dimensional Structuring for Efficient Long-Term Agent Memory

arXiv ID: 2605.15759
链接: https://arxiv.org/abs/2605.15759
作者: Wentao Qiu, Haotian Hu, Fanyi Wang, Jinwei Kong, Yu Zhang
关键词: 维度结构化、长期记忆、轻量级记忆框架、可学习提取器

摘要要点:

DimMem 将每条记忆表示为原子化的、类型化的、自包含的单元，包含时间、地点、原因、目的、关键词等显式字段。核心贡献：

维度感知检索： 利用结构化字段实现精准召回
记忆更新与选择性上下文召回
在 LoCoMo-10 和 LongMemEval-S 上分别达到 81.43% 和 78.20% 准确率
微调后的 Qwen3-4B 提取器超越使用 GPT-4.1-mini 的 LightMem
每查询 token 成本降低 24%
开源：https://github.com/ChowRunFa/DimMem

4. H-Mem: A Novel Memory Mechanism for Evolving and Retrieving Agent Memory via a Hybrid Structure

arXiv ID: 2605.15701
链接: https://arxiv.org/abs/2605.15701
作者: Jiawei Yu, Yixiang Fang, Xilin Liu, Yuchi Ma
关键词: 混合结构、时序语义树、知识图谱、记忆演化

摘要要点:

H-Mem 提出树-图混合的记忆机制：

时序语义树： 短期记忆渐进演化为长期记忆，后者提供前者的摘要信息
知识图谱： 捕获记忆中实体间的关系
混合检索： 结合树结构和图结构实现高效检索
在三个 Agent 记忆基准上达到 SOTA

5. SMMBench: A Benchmark for Source-Distributed Multimodal Agent Memory

arXiv ID: 2605.15710
链接: https://arxiv.org/abs/2605.15710
作者: Huacan Chai, Yukai Wang, Yingxuan Yang 等
关键词: 多模态记忆、跨源推理、基准评测、冲突消解

摘要要点:

SMMBench 关注一个被忽视的问题：当相关证据分散在对话、截图、表格、图片、文档等异构来源中时，Agent 能否有效检索、对齐和组合这些证据。评测四大能力：

跨源多模态推理
冲突消解
偏好推理
记忆驱动的行为预测
包含 1877 个样本、264 个来源
实验表明当前系统在这些能力上仍面临巨大挑战
数据集：https://huggingface.co/datasets/HuacanChai/SMMBench

6. DebiasRAG: A Tuning-Free Path to Fair Generation through RAG

arXiv ID: 2605.16113
链接: https://arxiv.org/abs/2605.16113
作者: Rui Chu, Bingyin Zhao 等
关键词: RAG、去偏、公平性、检索增强

摘要要点:

虽然不是直接的 Agent Memory 论文，但 DebiasRAG 展示了 RAG 在动态推理时的潜力：通过检索查询相关的去偏上下文来引导 LLM 输出更公平的内容。这对 Agent Memory 中的记忆检索策略有启发意义。

🔬 研究趋势分析

趋势一：记忆效率成为核心关注点

今日 5 篇核心记忆论文中有 3 篇（RecMem、DimMem、H-Mem）明确将效率作为核心贡献。这反映了社区从”有无记忆”向”如何高效管理记忆”的范式转移：

RecMem 通过递归触发避免不必要的 LLM 调用（节省 87% token）
DimMem 通过维度结构化减少 24% token 消耗
H-Mem 通过混合结构实现高效检索

趋势二：记忆表示的结构化与层次化

从”平坦的事实列表”转向结构化、层次化的记忆表示：

DimMem 的维度字段（时间、地点、原因、目的）
H-Mem 的时序语义树 + 知识图谱
FORGE 的 Rules vs. Examples vs. Mixed 分类

趋势三：从单模态到多模态记忆

SMMBench 明确提出多模态跨源记忆的挑战，标志着记忆研究从纯文本向多模态扩展。

趋势四：无需梯度的记忆进化

FORGE 完全通过 prompt-injected 自然语言记忆实现 Agent 自我进化，无需任何参数更新。这与微调小型提取器（DimMem 的 Qwen3-4B）形成了有趣的对比。

趋势五：评测基准的成熟化

SMMBench 专门针对多模态跨源记忆评测，RecMem 和 DimMem 使用 LoCoMo、LongMemEval 等标准化基准。评测基础设施正在快速成熟。

💡 关键洞察与创新点

“何时记忆”比”如何记忆”更重要 — RecMem 的递归触发哲学：不是所有交互都值得提取为记忆，只有反复出现的语义模式才值得巩固。这与人类记忆的选择性巩固机制高度一致。
维度即索引 — DimMem 的核心洞察：为记忆赋予显式维度字段（时间、地点、原因等），本质上是为检索创建了结构化索引，避免了 embedding 检索的模糊性。
种群智慧 > 个体反思 — FORGE 证明种群广播比单流 Reflexion 更有效，暗示 Agent 记忆的群体进化可能是更有前景的方向。
树 + 图 = 最佳拍档 — H-Mem 的混合结构巧妙结合了树的层次化演化能力和图的关联检索能力。
多源碎片化是真实挑战 — SMMBench 揭示了现实场景中记忆碎片化的问题，当前系统的跨源推理能力严重不足。

🔗 与 19 个开源记忆项目的关联

论文	最相关的开源项目	关联分析
FORGE	Reflexion, AutoGPT	继承 Reflexion 的反思机制，但增加了种群广播和进化；与 AutoGPT 的自迭代理念一脉相承
RecMem	MemGPT, LangChain Memory	递归触发与 MemGPT 的分层记忆管理理念一致；延迟巩固策略优于 LangChain 的即时记忆提取
DimMem	LlamaIndex, Mem0	维度结构化可视为 LlamaIndex Node metadata 的系统化扩展；比 Mem0 的平坦记忆更高效
H-Mem	MemGPT, Zep	树+图混合结构与 MemGPT 的分层架构和 Zep 的知识图谱互补
SMMBench	无直接对应	现有 19 个项目中没有一个专门解决多模态跨源记忆问题，这是明确的研究空白

值得注意的信号：

论文中被引用最多的基线系统包括 MemGPT、Reflexion、Mem0 等，说明这些项目的学术影响力正在增强
H-Mem 论文中直接提到 OpenClaw 作为 LLM Agent 示例
DimMem 的开源策略（提供小模型提取器）与 Mem0 的产品化路径形成对比

📊 一句话总结

今天是 Agent Memory 领域的一个”丰收日”——5 篇高质量论文同时发表，从效率优化（RecMem）、结构化表示（DimMem）、混合架构（H-Mem）、群体进化（FORGE）到多模态评测（SMMBench），几乎覆盖了记忆系统的每个关键环节。效率、结构化和多模态是明确的未来方向。

本报告由 OpenClaw arXiv Agent Memory Daily Cron 自动生成。