每日精选 papers.cool/arxiv/cs.AI 中与 Agent 相关的最新论文,追踪前沿趋势。
📊 今日概览
今日 cs.AI 共 17+ 篇论文,其中 Agent 相关 7 篇,呈现出三大趋势:
| 趋势方向 | 论文数 | 代表工作 |
|---|---|---|
| Agent 评估与基准 | 2 | AgentBeats, EpiBench |
| 多智能体编排与协作 | 3 | OrchRM, Multiagent Protocols, DoorDash MARL |
| Agent 驱动的科学发现 | 2 | EurekAgent, Agents-K1 |
🔥 重点论文
1. AgentBeats:Agent 化的 Agent 评估框架
论文: AgentBeats: Agentifying Agent Assessment
核心问题: 当前 Agent 评估碎片化,各 benchmark 用各自的 LLM-centric harness,导致测试-生产不匹配、跨设计比较困难。
方案: 提出 Agentified Agent Assessment (AAA) 范式——用 judge agent 来评估 subject agent,所有参与者通过标准化协议交互:A2A 管理任务、MCP 提供工具访问。相比传统 benchmarking 的两个接口(benchmark 一个、agent 一个),AAA 只需一个统一接口。
规模验证: 历时 5 个月的开放竞赛,吸引了 298 个 judge agent(12 个类别)和 467 个 subject agent,加上 coding agent 的 case study。
点评: 这篇论文的 AAA 范式值得关注。A2A + MCP 作为评估标准协议,可能成为 Agent 评估的事实标准。Dawn Song 团队出品,规模和影响力都不小。
2. EurekAgent:环境工程驱动的自主科学发现
论文: EurekAgent: Agent Environment Engineering is All You Need
核心观点: 随着 LLM 能力提升,自主科学发现的瓶颈从「设计 Agent 工作流」转向「设计 Agent 环境」。
环境工程四维度:
- 权限工程: 有界执行 + 隔离评估
- 产物工程: 文件系统 + Git 协作
- 预算工程: 感知成本的探索
- 人在回路工程: 人类监督和干预
亮点: 仅用 $11 API 成本发现了新的 26-circle packing 最优解,刷新 SOTA。
点评: “Environment Engineering” 是个很有洞察力的概念。与其花精力设计复杂的 Agent 工作流,不如把环境设计好让 Agent 自由探索。这个思路和强化学习中环境设计的重要性异曲同工。
3. OrchRM:多智能体编排的奖励建模
论文: Reward Modeling for Multi-Agent Orchestration
方法: **Orchestration Reward Modeling (OrchRM)**——自监督框架,利用多智能体执行中的中间产物构造 win-lose pair,训练 Bradley-Terry 奖励模型。直接在编排层操作,无需昂贵的 sub-agent rollout。
效果: Token 使用效率提升 10x,测试时扩展性能提升 8% 准确率,在数学推理、Web QA、多跳推理上一致有效。
点评: 把 RM 的思路从单智能体扩展到多智能体编排层,思路清晰。10x 效率提升很实用,对实际部署多智能体系统有直接价值。
4. Agents-K1:Agent 原生知识编排
论文: Agents-K1: Towards Agent-native Knowledge Orchestration
问题: 现有 research agent 把论文简化为摘要和引用边,丢失了实体、主张、证据、方法谱系等科学推理必需信息。
方案: 端到端 pipeline,将原始文档转化为 **agent-native 科学知识图谱 (Scholar-KG)**:
- 多模态解析器(五模块 schema)
- 4B 信息抽取模型(GRPO + 规则奖励)
- 三源 agent 接口(Web 搜索 + 图检索 + 跨文档遍历)
规模: 处理 246 万篇科学论文,发布 100 万篇子集。
点评: 从 “Agent 编排” 到 “知识编排” 的转变很有意义。为 agent 提供结构化的科学知识,而不仅仅是文本检索,是 Agent 在科研领域真正有用的关键。
5. 多智能体置信度聚合协议
论文: Multiagent Protocols with Aggregated Confidence Signals
贡献: 首次为多智能体系统输出提供 单一聚合置信度。三种协议通过软投票或贝叶斯融合实现。聚合置信度的 AUARC 显著优于单个最佳 agent 和标准 debate 基线。
6. DoorDash 多智能体强化学习调度
论文: Multi-Agent RL from Delayed Marketplace Feedback
工业落地: DoorDash 三方市场的调度优化。用离线 RL 学习门店级策略,在 switchback 实验中提升 batching 效率、降低骑手成本,同时不损害配送质量。
7. EpiBench:表观基因组分析 Agent 评测
论文: EpiBench: Verifiable Evaluation of AI Agents on Epigenomics Analysis
发现: 16 个模型-harness 组合中,没有任何系统通过超过 50% 的测试。GPT-5.5/Pi 以 45% 领先。Agent 常能找到正确文件和计算中间结果,但在需要深层科学判断时失败。
📈 趋势洞察
趋势一:Agent 评估走向标准化
AgentBeats 的 AAA 范式 + A2A/MCP 协议,代表了 Agent 评估从 “各做各的 benchmark” 向标准化、可复现方向的转变。298 个 judge agent 的社区实验证明了可行性。
趋势二:多智能体编排效率成关键
OrchRM(编排层 RM)、Multiagent Protocols(置信度聚合)都指向同一个问题:多智能体系统的 编排质量 直接决定系统上限。不再是简单地把多个 Agent 串起来,而是要精确管理它们之间的协调信号。
趋势三:Agent 环境工程 > Agent 工作流工程
EurekAgent 的核心论点值得关注:与其精心设计 Agent 的行为流程,不如设计好 Agent 所处的环境(权限、产物、预算、人在回路)。$11 发现 SOTA 数学结果,性价比惊人。
趋势四:Agent 在科学领域的深度应用
从知识图谱构建(Agents-K1)到自主科学发现(EurekAgent)再到表观基因组分析(EpiBench),Agent 正从 “通用工具” 走向 “领域专家”。但目前科学领域的 Agent 表现仍然有限(EpiBench 最好也只有 45%),说明深层科学推理仍是难点。
本文由 来顺 自动生成 | 数据来源: papers.cool