Agent 周报 | arXiv cs.AI 2026-06-24：Agent 训练数据配方、长轨迹故障归因、通用 Agent 可认证部署

2026-06-24

每日精选 arXiv cs.AI 中与 Agent 相关的最新论文，追踪前沿趋势。

📊 今日概览

2026年6月24日，arXiv cs.AI 共收录约 25 篇新论文，其中 8 篇与 Agent 直接相关。今日关键词：Agentic 数据配方、Agent 故障诊断、通用 Agent 理论保障、LLM 引导的 RL。

🔥 重点论文

1. OpenThoughts-Agent：Agentic 模型的数据配方

论文：OpenThoughts-Agent: Data Recipes for Agentic Models

这是今天最具影响力的 Agent 论文。OpenThoughts 团队提出了 OT-Agent，一个完全开放的数据策展管线（data curation pipeline），用于训练具有广泛能力的 Agentic 模型。

核心贡献：

100+ 受控消融实验，系统研究了管线每个阶段的影响
100K 训练样本微调 Qwen3-32B，在 7 个 Agentic 基准上平均准确率 44.8%
超过之前最强开放数据 Agentic 模型 Nemotron-Terminal-32B（40.9%）3.9 个百分点
训练数据展现强 scaling 特性，在计算控制比较中每个训练集规模都优于替代开放数据集

趋势洞察： Agentic 模型的训练数据配方正成为新的研究热点。从 SWE-Smith、SERA 到 Nemotron-Terminal，之前的工作通常只针对单一基准，OT-Agent 首次系统性解决了跨多样 Agentic 任务的泛化问题。任务来源的多样性和数据质量比单纯数量更重要。

2. SAFARI：长时序 Agent 故障归因

论文：SAFARI: Scaling Long Horizon Agentic Fault Attribution via Active Investigation

随着 Agent 执行越来越复杂的多步骤、多 Agent 任务，其执行轨迹已经超出了最大上下文窗口的限制。

核心贡献：

提出 工具增强诊断循环，替代线性上下文加载
配备专用工具箱读取/搜索轨迹片段 + 持久化短时记忆（STM）实现跨轮推理
在 Who&When 数据集上超越 SOTA **20%**（1M token 预算）
在 TRAIL GAIA 子集上超越 **19%**（25K token 预算）
即使目标故障位于模型原生上下文窗口 5 倍之外，仍保持 0.58 的精确度

趋势洞察： Agent 的长轨迹诊断是生产环境中的关键痛点。SAFARI 将诊断精度与架构上下文限制解耦，**”搜索 + 记忆”范式可能是长轨迹分析的标准解法**。

3. General Agent 的结构性认证

论文：World Models in Pieces: Structural Certification for General Agents

理论性很强的工作，证明通用 Agent 不可能具有普遍能力。

核心贡献：

证明通用 Agent 不具有通用性（non-universality），使得标准最坏情况分析失效
提出 结构性认证（Structural Certification），一个转换局部的框架
将有界目标条件性能映射到 Agent 内部世界模型的逐元素保证
给出 O(1/n) + O(δ) 误差界，且在 small-δ 机制下该界是紧的

趋势洞察： 随着 Agent 走向部署，可认证的安全性成为刚需。这篇工作为”哪些场景下 Agent 的长时规划是可靠的”提供了理论锚点。

📝 其他 Agent 相关论文

4. Grading the Grader：评估 Agentic 数据分析系统

论文：Grading the Grader: Lessons from Evaluating an Agentic Data Analysis System

Agentic 系统产生丰富输出（代码、数值结果、文字诊断），比单轮 LLM 响应更难评估。提出三层人-AI 评分级联：严格正则匹配 → LLM 宽松评分 → 片段人工检查，自动化评分精确度达 100%，宽松评分召回率 97%。

5. LaGO：LLM 作为隐动作先验引导在线 RL

论文：LaGO: Latent Action Guidance for Online Reinforcement Learning

将预训练 LLM 作为隐动作先验来软性引导在线策略优化，而非直接作为规划器或控制器。CLEVR-Robot 成功率从 15.1% 提升至 27.2%，Meta-World 从 2.7% 提升至 15.2%。

6. ASALT：多智能体 RL 中的自适应状态对齐迁移

论文：ASALT: Adaptive State Alignment for Lateral Transfer in Multi-agent RL

解决 MARL 迁移学习中源域和目标域状态空间维度不匹配的问题，通过观测级和状态级适配器映射到共享嵌入空间，缓解负迁移。

7. Themis：可解释 AI + RLHF 框架

论文：Themis: An explainable AI-enabled framework for RLHF

首个公开的结合可解释性和人类反馈的 RL 框架，支持 200+ 环境，可训练与真实奖励信号匹配或超越的奖励模型。

8. AdversaBench：LLM 红队评估

论文：AdversaBench: Automated LLM Red-Teaming with Multi-Judge Confirmation

端到端红队管线，含 5 种结构化变异算子和三评委确认机制。所有 45 个 seed 均产生确认故障，且对抗样本可从 Llama 3.1 8B 零样本迁移至 Llama 3.3 70B。

🧭 趋势总结

趋势	说明
Agent 训练数据成为核心	OT-Agent 证明数据配方 > 单纯规模，开放数据管线是方向
长轨迹处理	SAFARI 代表了 Agent 轨迹超长时的”搜索+记忆”解法
Agent 安全与认证	理论（结构性认证）+ 实践（红队评估）双线推进
LLM × RL 深度融合	LaGO（隐动作先验）、ASALT（多智能体迁移）展示 LLM 知识赋能 RL 的新范式
Agent 评估体系完善	从”能不能做”到”做得怎样”，多层评估、人-AI 协作评估成趋势

数据来源：papers.cool/arxiv/cs.AI | 自动生成于 2026-06-24

jsonContent: meta: false pages: false posts: title: true date: true path: true text: false raw: false content: false slug: false updated: false comments: false link: false permalink: false excerpt: false categories: false tags: true