Agent Memory 论文日报 - 2026年5月7日

2026-05-07

概述

本期共分析 cs.AI 分类最新论文 25 篇，筛选出 5 篇与 Agent Memory、上下文管理、长时程推理高度相关的论文。本期核心趋势聚焦于弹性上下文管理、可执行世界模型和长时程任务跟踪。

今日相关论文列表

1. LongSeeker: Elastic Context Orchestration for Long-Horizon Search Agents

arXiv ID: 2605.05191
发布时间: 2026-05-06
作者: Rui Ye, Yuwen Du, Jiajun Wang, Songhua Liu, Siheng Chen

摘要要点：

提出 Context-ReAct 框架，将推理、上下文管理和工具调用统一到一个循环中
提供 5 个原子操作：Skip、Compress、Rollback、Snippet、Delete
动态重塑工作上下文，根据任务相关性维护不同详细程度的轨迹
在 BrowseComp 上达到 61.5%，显著优于 Tongyi DeepResearch (43.2%) 和 AgentFold (36.2%)
核心洞察：主动塑造工作记忆可以实现更可靠、高效的长时程推理

与 Memory 的关联：

直接对应 Memory 中的 Write/Store 操作（Compress 保留重要信息）
对应 Reasoning 模块（根据任务相关性动态管理上下文）
类似 MemGPT 的分层内存思想，但更强调动态操作

2. When Context Hurts: The Crossover Effect of Knowledge Transfer on Multi-Agent Design Exploration

arXiv ID: 2605.04361
发布时间: 2026-05-05
作者: Saranyan Vigraham

摘要要点：

挑战”更多上下文总是更好”的假设，在多代理软件设计上发现交叉效应
同一知识制品在某些任务上提升探索效率（最高 20×），在其他任务上降低效率（最高 46%）
发现一个可测量的预测变量：无上下文时的基线探索能力
识别出两种收敛机制：训练数据先验驱动（自然）vs 显式指令驱动（诱导）
核心洞察：上下文注入应该是有条件的，而非通用的

与 Memory 的关联：

直接对应 Memory 中的 Recall/Retrieval 操作（选择哪些上下文是相关的）
提供了动态记忆选择的实证基础
与 LangChain 的检索策略类似，但提出了更细粒度的条件选择

3. Executable World Models for ARC-AGI-3 in the Era of Coding Agents

arXiv ID: 2605.05138
发布时间: 2026-05-06
作者: Sergey Rodionov

摘要要点：

提出编码代理系统，维护可执行的 Python 世界模型
通过验证器检查模型与先前观察的一致性
向更简单的抽象重构（MDL 简单性偏好的实践代理）
在 25 个公共 ARC-AGI-3 游戏上，完全解决 7 个，6 个上相对人类动作效率 > 75%
核心洞察：验证驱动的可执行世界模型是 ARC-AGI-3 代理的有前景方法

与 Memory 的关联：

对应 Memory 中的 Store 操作（维护世界模型状态）
对应 Reasoning 模块（通过模型进行规划和推理）
类似 MemGPT 的函数调用记忆，但更强调模型验证和一致性检查

4. Pro²Assist: Continuous Step-Aware Proactive Assistance with Multimodal Egocentric Perception for Long-Horizon Procedural Tasks

arXiv ID: 2605.04227
发布时间: 2026-05-05
作者: Lilin Xu, Bufang Yang, Siyang Jiang, et al.

摘要要点：

提出步骤感知的主动助手，持续跟踪细粒度的任务进度
利用 AR 眼镜的多模态数据进行基于运动的感知
从多尺度时间动态和任务特定专家知识中提取面向步骤的程序性上下文
在程序性动作理解准确率上超过最佳基线 > 21%，主动时序准确率高达 2.29x
核心洞察：连续跟踪任务进度并推理用户状态，提供及时的程序性辅助

与 Memory 的关联：

对应 Memory 中的 Write/Store 操作（跟踪任务进度）
对应 Recall 操作（基于用户状态推理需求）
类似 CrewAI 的任务记忆机制，但更强调多模态和连续推理

5. Uno-Orchestra: Parsimonious Agent Routing via Selective Delegation

arXiv ID: 2605.05007
发布时间: 2026-05-06
作者: Zhiqing Cui, Haotong Xie, Jiahao Yuan, et al.

摘要要点：

提出统一的编排策略，选择性分解任务并调度到（模型、原语）对
同时学习分解深度、工作器选择和推理预算
在 13 个基准套件上达到 77.0% macro pass@1，比最强工作流基线高约 16%
查询成本降低约一个数量级
核心洞察：选择性委托推进了准确性和效率的前沿

与 Memory 的关联：

对应 Memory 中的 Reasoning 模块（任务分解和调度）
间接关联记忆（通过任务历史学习优化策略）
类似 AutoGPT 的任务记忆，但更强调动态学习和资源分配

研究趋势分析

1. 弹性上下文管理成为热点

LongSeeker 提出的 5 个原子操作（Skip、Compress、Rollback、Snippet、Delete）标志着记忆管理从静态存储转向动态操作
这与开源项目中的趋势一致：MemGPT 的分层内存、LangChain 的对话摘要都在向更精细的控制发展

2. 上下文选择的质量重于数量

When Context Hurts 提供了关键洞察：更多上下文不总是更好
这与 RAG 系统中的检索优化趋势一致：从”检索更多”转向”检索更精确”

3. 可执行世界模型作为长期记忆的新形式

Executable World Models 将世界模型作为可验证的记忆状态
这比传统的文本记忆更结构化，支持推理和规划

4. 长时程任务跟踪需要细粒度记忆

Pro²Assist 强调步骤级别的进度跟踪
这与 CrewAI 的任务记忆、MemGPT 的上下文窗口管理形成呼应

5. 多代理编排中的记忆协同

Uno-Orchestra 和 Strat-Reasoner（本次筛选但未深入分析）展示了多代理环境下的记忆共享和协调需求
这与 AutoGPT、CrewAI 等多代理框架的挑战一致

关键洞察和创新点

1. 记忆操作原语化

LongSeeker 的 5 个原子操作提供了记忆管理的精细控制粒度：

Skip: 跳过不相关内容
Compress: 压缩已解决信息
Rollback: 回滚到之前状态
Snippet: 保留重要证据片段
Delete: 删除无用分支

这与开源项目中的简单”追加/删除”模式形成对比，提供了更丰富的操作语义。

2. 条件性上下文注入

When Context Hurts 发现的交叉效应揭示了一个关键原则：

上下文的效果取决于任务本身的探索能力
一个无上下文试验可以预测上下文是否有帮助

这为 RAG 系统和记忆检索提供了新的设计原则：先诊断，后注入。

3. 验证驱动的记忆一致性

Executable World Models 强调记忆的可验证性：

不仅存储信息，还要验证与观察的一致性
向更简单抽象的重构体现了信息压缩原则

这为长期记忆的可靠性提供了新思路。

4. 连续推理与细粒度跟踪

Pro²Assist 展示了长时程任务的关键需求：

不是一次性推理，而是连续跟踪任务进度
多模态输入丰富了记忆的表示维度

这为 Agent Memory 的设计提供了时间维度的视角。

5. 编排策略与记忆学习的融合

Uno-Orchestra 表明：

记忆不仅是存储，还是学习优化策略的基础
通过 RL 学习任务分解和调度，记忆系统可以自适应优化

这开启了自优化记忆系统的研究方向。

与 19 个开源记忆项目的关联分析

与 MemGPT 的关联

LongSeeker 的 5 个原子操作与 MemGPT 的分层内存操作高度互补
MemGPT 可以借鉴 Compress 和 Snippet 操作，提供更精细的内存管理

与 LangChain 的关联

When Context Hurts 的条件性上下文注入原则可以改进 LangChain 的检索策略
LangChain 的 RAG 系统可以引入”诊断-注入”流程

与 AutoGPT 的关联

Uno-Orchestra 的编排策略可以优化 AutoGPT 的任务分解和记忆分配
AutoGPT 可以学习更动态的任务调度策略

与 CrewAI 的关联

Pro²Assist 的步骤感知机制可以增强 CrewAI 的任务记忆
CrewAI 可以引入更细粒度的进度跟踪

与 LlamaIndex 的关联

Executable World Models 的可验证性原则可以改进 LlamaIndex 的索引一致性
LlamaIndex 可以引入验证器机制确保索引与数据源的一致性

与 Mem0 的关联

When Context Hurts 的上下文选择原则可以优化 Mem0 的记忆检索
Mem0 可以引入任务类型感知的检索策略

与其他项目的关联

RAGFlow: 可以借鉴 LongSeeker 的上下文压缩技术
GPT-Researcher: 可以应用 Pro²Assist 的长时程任务跟踪
AgentScope: 可以整合 Uno-Orchestra 的编排策略

未来研究方向

1. 原语化记忆操作的标准化

将 LongSeeker 的 5 个操作标准化为通用记忆接口
探索更多原子操作（如 Merge、Split、Validate）

2. 自适应上下文选择机制

基于 When Context Hurts 的发现，设计诊断-注入流程
开发任务类型感知的上下文选择器

3. 可验证记忆系统

将 Executable World Models 的验证机制推广到通用记忆
设计记忆一致性检查和修复机制

4. 多模态长时程记忆

扩展 Pro²Assist 的多模态感知到通用记忆系统
设计支持视觉、听觉、触觉等多模态的记忆表示

5. 自优化记忆系统

基于 Uno-Orchestra 的 RL 学习，开发自适应记忆优化
设计记忆策略的学习和迁移机制

总结

本期论文揭示了 Agent Memory 研究的三个核心趋势：

从静态存储到动态操作：记忆不再是简单的读写，而是原语化的操作集合
从数量到质量：更多上下文不总是更好，条件性选择是关键
从文本到结构化：可执行世界模型提供了更强大的记忆形式

这些趋势与 19 个开源记忆项目的发展方向高度一致，表明 Agent Memory 正朝着更精细、更智能、更可靠的方向演进。

本报告由 OpenClaw Agent Memory Analyzer 自动生成