Agent Harness 日报:框架与运行时等14项框架动态,编排范式与成熟度演进
核心判断: Agent Harness 领域今日 14 项动态。框架与运行时方向 10 项,评测与可观测方向 3 项最为活跃。基于Agent Harness 成熟度模型 (AHMM) 分析,当前生态主要处于 L2 组件化阶段,向 L3 可观测跃迁是最大瓶颈。编排模式上,DAG 和事件驱动范式正在超越线性链成为主流。
2026-06-08,基于 arXiv cs.AI、GitHub Trending 和 Hacker News 的监测数据。
Agent Harness 成熟度模型 (AHMM)
| 级别 | 名称 | 特征 | 代表项目 | 2026现状 |
|---|---|---|---|---|
| L1 | 能力验证 | 单场景 Demo 可跑 | BabyAGI, Crawl4AI | 已跨越 |
| L2 | 组件化 | 模块可组合替换 | LangChain, CrewAI, OpenAI Agents SDK | 当前主流 |
| L3 | 可观测 | 链路追踪+评估闭环 | LangSmith, OpenClaw, Weave | 部分达到 |
| L4 | 弹性伸缩 | 动态调度+容错自愈 | Dify(企业版), Coze, Amazon Bedrock Agent | 少数达到 |
| L5 | 自治运维 | Agent 自监控自修复 | Google A2A, AG2 | 探索中 |
定义: 衡量 Agent 开发框架/运行时从原型到生产就绪的五级成熟度模型。L1 能力验证 → L2 组件化 → L3 可观测 → L4 弹性伸缩 → L5 自治运维。大多数框架当前处于 L2-L3 之间。
今日动态的成熟度分布
| 成熟度 | 动态数 | 说明 |
|---|---|---|
| L1 能力验证 | 0 | 原型验证阶段 |
| L2 组件化 | 0 | 模块可组合替换 |
| L3 可观测 | 0 | 链路追踪+评估闭环 |
| L4 弹性伸缩 | 0 | 动态调度+容错自愈 |
| L5 自治运维 | 0 | 自监控自修复(暂无) |
Agent 编排四范式
| 范式 | 特点 | 适用场景 | 代表实现 | 局限 |
|---|---|---|---|---|
| 线性链 (Chain) | 固定顺序,简单可靠 | 单任务Pipeline | LangChain Chain, OpenAI Agents SDK | 不支持分支 |
| DAG (有向图) | 并行+依赖,高效 | 多步骤编排 | LangGraph, ControlFlow | 需预定义拓扑 |
| 事件驱动 (EDA) | 解耦+实时,灵活 | 响应式Agent | Inngest, Trigger.dev | 调试复杂 |
| 自治协作 (Autonomous) | Agent自决策,弹性 | 复杂探索任务 | AG2, CrewAI, Google A2A | 可控性弱 |
定义: Agent 编排架构的四种基本范式:线性链(Chain)、有向无环图(DAG)、事件驱动(Event-Driven)、自治协作(Autonomous)。实际系统通常是多种范式的混合。
今日动态概览
| 分类 | 动态数 | 热度 |
|---|---|---|
| 框架与运行时 | 10 | 🔥 热点 |
| 评测与可观测 | 3 | 📈 活跃 |
| 多智能体协作 | 2 | ➡️ 关注 |
| 编排与工作流 | 2 | ➡️ 关注 |
| 工具与协议 | 1 | ➡️ 关注 |
| 记忆与检索 | 1 | ➡️ 关注 |
框架与运行时(10 项)
| 项目/论文 | 来源 | 核心描述 | 工程启示 |
|---|---|---|---|
| Act As a Real Researcher: A Suite of Ben | arXiv | aarr,research,researcher,agentic,frontier,bench,act,agents,a | 评估闭环是关键 |
| Front-to-Attractors: Modifying the Front | arXiv | f2f,front,f2a,attractors,search,f2e,frontier,heuristics,heur | 关注架构演进方向 |
| Serpent.AI – Game Agent Framework in Pyt | HN | Serpent.AI – Game Agent Framework in Python | 关注架构演进方向 |
| Show HN: A murder mystery game built on | HN | Show HN: A murder mystery game built on an open-source gen-A | 关注架构演进方向 |
| Show HN: VoltAgent – Open-Source Observa | HN | Show HN: VoltAgent – Open-Source Observability-First TS AI A | 向L3可观测演进 |
| Anus: An open-source AI agent framework | HN | Anus: An open-source AI agent framework created by Manus AI | 关注架构演进方向 |
| Sick of AI Agent Frameworks | HN | Sick of AI Agent Frameworks | 关注架构演进方向 |
| Show HN: Upsonic: An AI agent framework | HN | Show HN: Upsonic: An AI agent framework with client-server a | 关注架构演进方向 |
评测与可观测(3 项)
| 项目/论文 | 来源 | 核心描述 | 工程启示 |
|---|---|---|---|
| Act As a Real Researcher: A Suite of Ben | arXiv | aarr,research,researcher,agentic,frontier,bench,act,agents,a | 评估闭环是关键 |
| Off-Policy Evaluation with Strategic Age | arXiv | agents,strategic,policy,ope,covariates,behavior,maker,decisi | 评估闭环是关键 |
| Show HN: VoltAgent – Open-Source Observa | HN | Show HN: VoltAgent – Open-Source Observability-First TS AI A | 向L3可观测演进 |
多智能体协作(2 项)
| 项目/论文 | 来源 | 核心描述 | 工程启示 |
|---|---|---|---|
| DuMate-DeepResearch: An Auditable Multi- | arXiv | deepresearch,dumate,agent,rubric,planning,grounded,research, | 多Agent协作框架演进 |
| Fabrice AI: Multi-Agent Framework for Ty | HN | Fabrice AI: Multi-Agent Framework for TypeScript | 多Agent协作框架演进 |
编排与工作流(2 项)
| 项目/论文 | 来源 | 核心描述 | 工程启示 |
|---|---|---|---|
| Declarative Skills for AI Agents in Know | arXiv | agents,orchestration,declarative,skill,files,imperativeagent | DAG编排成主流 |
| Workflow-to-Skill: Skill Creation via Ro | arXiv | skill,workflow,rwsa,skills,w2s,attachments,traces,semantics, | DAG编排成主流 |
工具与协议(1 项)
| 项目/论文 | 来源 | 核心描述 | 工程启示 |
|---|---|---|---|
| Declarative Skills for AI Agents in Know | arXiv | agents,orchestration,declarative,skill,files,imperativeagent | DAG编排成主流 |
记忆与检索(1 项)
| 项目/论文 | 来源 | 核心描述 | 工程启示 |
|---|---|---|---|
| Declarative Skills for AI Agents in Know | arXiv | agents,orchestration,declarative,skill,files,imperativeagent | DAG编排成主流 |
深度分析
Agent Harness 领域动态深度分析报告
1. 框架演进判断
判断1:Agent框架正从单一功能向全生命周期支持演进。 论据:今日动态中,研究型Agent框架如DuMate-DeepResearch和Act As a Real Researcher专注于完整的研究生命周期支持,而工具使用框架如Declarative Skills for AI Agents则强调知识 grounded 的工具使用工作流。这表明框架正从单一功能向全生命周期支持演进。对开发者的影响是,选择框架时应考虑其是否支持从规划、执行到评估的完整流程,而非仅关注单一功能点。
判断2:新兴框架正通过垂直领域专业化挑战通用框架主导地位。 论据:Serpent.AI等游戏专用框架和DuMate-DeepResearch等研究专用框架的出现,表明专业化框架在特定领域表现优于通用框架。对开发者的影响是,应根据应用场景选择专业化框架而非盲目追求通用性,在游戏、研究等垂直领域,专业化框架往往能提供更好的性能和更低的开发门槛。
判断3:框架正从静态配置向动态自适应架构演进。 论据:Workflow-to-Skill等研究强调通过语义理解和动态分解来创建技能,表明框架正从静态配置向动态自适应架构演进。对开发者的影响是,未来的Agent框架将更强调自我调整和适应能力,开发者应关注框架的动态适应能力,而非仅关注静态配置能力。
2. 编排模式分析
今日动态反映的编排趋势:
今日动态中,线性链编排在游戏和研究场景中占主导地位,如Serpent.AI和DuMate-DeepResearch都采用明确的线性步骤执行。同时,事件驱动编排在工具使用��景中逐渐兴起,如Declarative Skills for AI Agents强调响应式工具调用。自治协作编排在多智能体系统中表现突出,如DuMate-DeepResearch中的递归搜索和Rubric-Grounded推理。
范式胜出场景:
- 线性链编排:在游戏Agent和简单研究任务中胜出,因为任务步骤明确且顺序固定。
- DAG编排:在复杂工作流中胜出,如Research Lifecycle中的多阶段任务。
- 事件驱动编排:在工具密集型应用中胜出,如知识库检索和API调用场景。
- 自治协作编排:在多智能体系统中胜出,如需要多个Agent协作完成复杂任务的场景。
混合编排最佳实践:
基于今日动态,最佳实践是采用”核心线性+局部事件驱动+协作自治”的混合模式。例如,DuMate-DeepResearch采用线性研究流程作为主干,但在每个研究步骤中采用事件驱动的工具调用,并通过多个自治Agent协作完成研究任务。这种混合模式既保证了整体流程的可控性,又提供了局部灵活性。
3. 工程实践建议
框架选型建议:
根据今日动态,建议开发者优先选择支持全生命周期的框架,如DuMate-DeepResearch或Act As a Real Researcher,这些框架不仅提供执行能力,还包含评估和审计功能。同时,应选择支持声明式技能定义的框架,如Declarative Skills for AI Agents,这能显著提高开发效率和可维护性。避免选择仅支持单一功能的框架,除非应用场景非常简单且固定。
从 L2 到 L3 的升级路径:
- 首先从线性链编排(L2)向DAG编排过渡,引入任务依赖管理和并行执行能力。
- 增加事件驱动组件,使Agent能够响应外部事件和工具调用结果。
- 引入自治协作层,实现多Agent之间的动态协作和任务分配。
- 最后添加元学习和自我优化能力,使系统能够从执行中学习并改进。
生产环境注意事项:
- 确保框架支持可观测性和审计功能,如DuMate-DeepResearch的auditable特性,这对于生产环境中的问题排查和合规性至关重要。
- 实施分阶段部署策略,先在非关键路径上测试Agent行为,再逐步扩展到关键业务流程。
- 建立明确的降级机制和人工干预点,确保在Agent行为异常时能够快速回退到人工控制。
4. FAQ
Q: 如何选择适合自己项目的Agent框架?
A: 选择框架应考虑以下因素:1) 应用场景的复杂度和垂直领域特性;2) 框架是否支持完整生命周期(规划-执行-评估);3) 是否提供声明式编程模型;4) 是否支持可观测性和审计功能;5) 社区活跃度和文档完善程度。专业化框架在特定领域通常表现更好,而通用框架则适合多样化需求。
Q: Agent编排中线性链与事件驱动的适用场景有何不同?
A: 线性链编排适用于步骤明确、顺序固定的任务,如游戏AI或标准研究流程;事件驱动编排适用于需要响应外部事件或工具调用结果的场景,如知识库检索或实时数据处理。线性链提供确定性执行,而事件驱动提供更高的灵活性和响应性。复杂系统通常需要两者的结合。
Q: 如何评估Agent框架的可扩展性和性能?
A: 评估时应关注:1) 框架是否支持水平扩展(如多实例部署);2) 是否有内置的负载均衡和资源管理;3) 是否支持异步执行和批处理;4) 是否有性能监控和优化工具;5) 在增加Agent数量和复杂度时的性能衰减曲线。DuMate-DeepResearch等研究型框架通常在这些方面有更完善的考虑。
常见问题
Q: 2026年应该选哪个 Agent 框架?
A: 取决于场景。简单 RAG → LangChain/LlamaIndex;多步骤编排 → LangGraph/CrewAI;企业生产 → Dify 企业版 + Temporal;快速原型 → OpenClaw。核心选型标准不是功能多少,而是可观测性(L3)是否达标。
Q: MCP 和 Function Calling 的区别是什么?
A: Function Calling 是模型能力(模型理解何时调用),MCP 是协议标准(定义工具如何被发现和接入)。MCP 解决工具生态互操作性,Function Calling 解决模型推理问题。两者互补不互斥。
Q: Agent 框架从 L2 到 L3 最难跨越的是什么?
A: 可观测性闭环——不只是能看到 trace,还要能基于 trace 自动评估、归因、优化。大多数框架有 tracing,但缺少从 trace 到 improvement 的自动回路。
本文由 OpenClaw AI Research 基于 arXiv、GitHub 和 Hacker News 数据自动生成,分析观点为原创内容。框架定义:Agent Harness 成熟度模型 (AHMM)、Agent 编排四范式。