大模型图形用户界面操作智能体（GUI Agents）综述：数据、架构、分类、应用、挑战

2026-06-11

大模型图形用户界面操作智能体（GUI Agents）综述：数据、架构、分类、应用、挑战

引言

图形用户界面（GUI）是人类与数字世界交互的主要通道——从桌面操作系统、移动 App 到 Web 应用，绝大多数信息流转都经过 GUI。长期以来，自动化 GUI 操作依赖脆弱的脚本和选择器，一丁点 UI 变动就全线崩溃。

大模型（LLM / MLLM）的出现改变了这一切。GUI Agent 的核心思想是：让大模型像人一样”看”屏幕、”理解”界面、”操作”控件，从而实现通用、鲁棒的 GUI 自动化。从 2023 年 WebVoyager、SeeAct 的早期探索，到 2024–2025 年 AgentS、UGround、ShowUI、Claude Computer Use 等系统的涌现，GUI Agent 已从概念验证走向实用化前夜。

本文从数据、架构、分类、应用、挑战五个维度，对 GUI Agent 领域进行全面梳理。

一、核心概念与问题定义

1.1 什么是 GUI Agent？

GUI Agent 是一种以大模型为认知核心、通过感知和操作图形用户界面来完成任务的智能体。它不依赖 API 或源码，而是像人类用户一样：

感知：截取屏幕截图或提取 UI 结构树（DOM / Accessibility Tree）
推理：理解当前界面状态、规划下一步操作
操作：执行点击、输入、滚动、拖拽等动作

1.2 形式化定义

给定任务指令 $I$，GUI Agent 在时刻 $t$ 观察到界面状态 $s_t$（截图 + 结构化信息），输出动作 $a_t$，环境转移到 $s_{t+1}$，循环直到任务完成或达到步数上限。目标是最小化完成步数、最大化任务成功率。

1	观察(s_t) → 推理(I, s_t, history) → 动作(a_t) → 环境转移(s_{t+1})

1.3 与传统 RPA 的本质区别

维度	传统 RPA	GUI Agent
定位方式	CSS/XPath 选择器	视觉理解 + 语义定位
鲁棒性	UI 变动即崩溃	自适应界面变化
泛化能力	仅限预设流程	零样本处理新任务
构建成本	需专业开发	自然语言即可定义
容错性	异常即停止	自我修复与重试

二、数据：GUI Agent 的燃料

2.1 数据类型

GUI Agent 的训练和评估依赖四类数据：

截图数据：原始像素输入，最接近人类感知方式。关键挑战是分辨率（4K 屏幕的 token 消耗巨大）和隐私脱敏。

UI 结构树数据：包括 Web 的 DOM 树、Android 的 View Hierarchy、桌面端的 Accessibility Tree。结构化、精确，但获取成本高且某些应用不支持。

轨迹数据：完整的人机交互记录（截图 + 动作序列），是训练 Agent 的核心。高质量轨迹需要专家标注，成本约 $2–10/步。

指令数据：自然语言任务描述，用于评估和训练指令遵循能力。

2.2 代表性数据集

数据集	规模	领域	特点
WebVoyager	643 任务	Web	首个端到端 Web Agent 基准
WebArena	812 任务	Web	真实网站环境，多步骤
Mind2Web	2,000+ 任务	Web	多网站、多样式
AndroidWorld	116 个 App	Android	动态环境，真实 App
OSWorld	369 任务	桌面 OS	全操作系统操作
GUI Odyssey	7K+ 轨迹	跨平台	手机 + 桌面
Spider2-V	494 任务	数据分析	GUI + 代码混合
ScreenSpot	623 样本	通用	定位精度基准

2.3 数据构建方法

人工标注：质量最高但成本巨大，如 Mind2Web
反向工程：从已有操作日志反推，如 A11y Tree 数据
合成生成：用大模型生成轨迹，如 AgentS 的轨迹合成流水线
用户录制：通过浏览器插件或系统钩子录制真实操作

2.4 数据挑战

隐私合规：截图可能包含敏感信息
分布偏移：训练环境与真实环境差异
长尾场景：罕见 UI 模式数据稀缺
成本控制：高质量轨迹标注的规模化难题

三、架构：GUI Agent 的大脑设计

3.1 感知层

GUI Agent 的感知方式决定了它的能力上限：

纯视觉方案：仅使用截图输入。代表工作包括 CogAgent、Qwen2.5-VL。优势是与平台无关，劣势是精确定位困难（像素级坐标回归误差大）。

纯结构方案：仅使用 UI 树。代表工作包括 SeeAct（Set-of-Mark 标注后输入）。定位精确但丢失视觉信息（颜色、布局、图标）。

混合方案：同时使用截图和 UI 树。代表工作包括 UGround、AgentS。将 UI 树元素标注到截图上（Set-of-Mark），结合视觉语义和结构精确性。这是当前最优方案。

Set-of-Mark（SoM） 是关键技术：在截图上为每个可交互元素画框并编号，Agent 输出编号即可完成定位，将连续坐标回归问题转化为离散选择问题。

3.2 推理层

单步推理：每步独立决策，无历史依赖。简单但容易丢失上下文。

链式推理（CoT）：先分析界面、再规划动作。例如：”我看到搜索框在右上角（编号 5），我需要点击它并输入查询词。” 准确率显著提升但增加 token 消耗。

记忆增强推理：维护短期记忆（最近 N 步）和长期记忆（任务级摘要）。AgentS 引入了”经验记忆”——从历史成功轨迹中提取可复用的操作模式。

树搜索推理：在关键决策点展开多个候选动作，评估后选择最优。计算成本高但减少死胡同。

3.3 动作层

动作空间设计是核心权衡：

动作类型	格式	精度	泛化性
坐标点击	`(x, y)`	低	高
元素选择	`click[id]`	高	中
语义动作	`click("搜索按钮")`	中	高
混合动作	`click[id] + 坐标偏移`	高	高

键盘输入：支持文本输入、快捷键、组合键。挑战是输入法交互（中文输入需要多步候选选择）。

滚动操作：垂直/水平滚动，需确定方向和幅度。

拖拽操作：最复杂的原子动作，需要起点-终点对和轨迹规划。

3.4 端到端 vs 分层架构

端到端架构：一个模型完成感知→推理→动作全流程。代表：Claude Computer Use、GPT-4o + Computer Use。优势是简洁，劣势是难以调试。

分层架构：感知模型（定位 UI 元素）+ 决策模型（选择动作）+ 执行层（模拟操作）。代表：AgentS（Planner + Locator + Executor）。优势是模块可独立优化，劣势是误差传播。

当前趋势是端到端为主、分层为辅——主模型端到端推理，关键模块（如精确定位）用专门模型辅助。

四、分类：GUI Agent 的形态谱系

4.1 按平台分类

Web Agent：操作浏览器中的网页。环境最可控（DOM 可获取），研究最成熟。代表：WebVoyager、SeeAct、AgentS。

移动端 Agent：操作 Android/iOS 应用。挑战在于触摸交互、屏幕尺寸小、App 沙盒限制。代表：AppAgent、CogAgent、AndroidWorld。

桌面 Agent：操作操作系统级 GUI。最复杂，需处理多窗口、系统设置、跨应用交互。代表：OSWorld、Claude Computer Use、UFO。

跨平台 Agent：统一架构适配多平台。代表：ShowUI（跨平台视觉 Agent）、UGround。

4.2 按模型类型分类

闭源模型 Agent：基于 GPT-4o、Claude 等闭源 API。性能强但成本高、不可定制。代表：Claude Computer Use、SeeAct（GPT-4V）。

开源模型 Agent：基于 Qwen-VL、CogAgent、ShowUI 等开源模型。可定制、可本地部署，但性能仍有差距。

微调专用模型：针对 GUI 任务微调的专用模型。代表：UGround（定位微调）、ShowUI（视觉-动作对齐）、CogAgent（GUI 理解微调）。在特定任务上超越通用模型。

4.3 按自主程度分类

辅助型 Agent：每步操作需人类确认。安全但效率低。

半自主型 Agent：自主操作，关键节点请求确认。实用与安全的平衡点。

全自主型 Agent：完全自主执行，仅结果汇报。效率最高但风险最大。

4.4 按任务类型分类

信息检索：在网站/ App 中查找特定信息
表单填写：自动化数据录入
工作流执行：完成多步骤业务流程
数据分析：操作数据工具生成报告
系统管理：操作系统配置和维护

五、应用：从实验室到生产力

5.1 自动化测试

GUI Agent 最直接的应用场景——替代手工 QA 执行回归测试。相比传统自动化测试：

无需维护选择器，UI 变动后自动适配
用自然语言描述测试用例，降低编写门槛
可处理动态内容（弹窗、广告、A/B 测试）

代表实践：Microsoft 的 Playwright MCP Server、Anthropic 的 Claude Computer Use for Testing。

5.2 RPA 升级

传统 RPA 的”脚本脆弱性”是最大痛点。GUI Agent 带来：

自适应定位：按钮移动/改名后仍能找到
异常自修复：流程出错时尝试替代路径
零代码构建：用自然语言描述流程即可生成自动化

商业落地：UiPath、Automation Anywhere 等厂商已开始集成 LLM 能力。

5.3 无障碍辅助

为视障、运动障碍用户提供语音驱动的 GUI 操作：

语音指令 → GUI Agent 执行操作
自动描述界面内容
引导用户完成复杂流程

5.4 数据采集与分析

自动爬取结构化数据（绕过反爬时更像人类行为）
操作 BI 工具生成报表
跨平台数据整合

5.5 个人数字助手

终极愿景——一个 7×24 小时在线的”数字分身”：

代为处理邮件、日程、消息
自动比价、下单
管理文档和文件

六、挑战与开放问题

6.1 定位精度

核心痛点：大模型在像素级定位上的精度远不如人类。在 1920×1080 分辨率的屏幕上，10 像素的偏移可能就点错按钮。

当前方案：

Set-of-Mark 将坐标回归转为元素选择
多尺度视觉编码（高分辨率感知 + 低分辨率推理）
专门的定位微调（如 UGround）

未解问题：小元素（图标、链接密集区域）的精确定位仍不可靠。

6.2 长程任务规划

10 步以上的任务成功率急剧下降。原因：

累积误差：前一步出错，后续全部偏移
上下文遗忘：长对话中丢失初始目标
中途恢复困难：出错后无法有效回溯

探索方向：层次化任务分解、检查点机制、自动重试与自我修复。

6.3 实时性

当前 GUI Agent 单步延迟 2–5 秒（含截图、推理、执行），人类操作约 0.5–1 秒。差距来源：

截图编码耗时（高分辨率图像的 token 量巨大）
大模型推理延迟
动作执行与等待页面响应

优化路径：视觉 token 压缩、流式推理、预测性动作。

6.4 安全与对齐

GUI Agent 拥有操作真实系统的能力，安全风险极高：

误操作：删除重要文件、发送错误邮件
提示注入：恶意网页通过可见文本劫持 Agent 指令
权限失控：Agent 获取超出任务需要的系统权限
隐私泄露：截图可能包含敏感信息并传回云端

缓解措施：沙盒执行、操作确认机制、权限最小化、本地化部署。

6.5 泛化能力

环境泛化：在训练环境（如特定网站）上表现良好，换到新环境骤降。

任务泛化：已验证的任务类型能做，新类型任务零样本表现差。

根本原因：训练数据覆盖的环境和任务有限，大模型对 GUI 的理解仍偏表面模式匹配而非深层语义。

6.6 评估体系

现有基准的局限性：

环境单一：多数基准仅覆盖 Web
任务简单：真实任务远比基准复杂
指标粗糙：成功率是二元判断，忽略部分完成
不可复现：动态网站内容变化导致结果不稳定

改进方向：多平台基准、细粒度评分、可控测试环境、标准化评估协议。

6.7 多模态对齐

GUI 操作需要视觉-语言-动作的精确对齐：

“点击右上角的红色叉号”需要同时理解位置（右上角）、颜色（红色）、形状（叉号）和动作（点击）
当前模型在复杂视觉指代表达上的对齐仍不完善

七、未来方向

7.1 世界模型驱动的 GUI Agent

构建 GUI 的”世界模型”——Agent 不仅能看到当前界面，还能预测操作后的界面变化，从而提前规划多步策略，减少试错。

7.2 经验积累与迁移

从历史操作中提取可复用的”操作技能”（Skills），新任务时组合已有技能而非从零开始。类比人类：学会了用 Excel 就能快速迁移到 Google Sheets。

7.3 人机协同

GUI Agent 不必完全替代人，而是与人协作：

Agent 处理重复性操作，人做关键决策
Agent 提供建议，人确认执行
人干预时 Agent 学习并改进

7.4 多 Agent 协作

复杂任务拆分给多个专业 Agent：

导航 Agent：负责页面跳转和信息检索
表单 Agent：负责数据填写
验证 Agent：负责结果检查
协调 Agent：负责任务分配和冲突解决

7.5 统一 GUI 操作标准

推动建立统一的 GUI Agent 操作协议，类似 HTTP 之于 Web——定义标准的观察格式、动作格式、评估指标，降低系统间迁移成本。MCP（Model Context Protocol）是这一方向的早期尝试。

7.6 本地化与端侧部署

隐私敏感场景（银行、医疗）要求 Agent 在本地运行。挑战在于：

端侧模型的能力有限
视觉处理的计算开销
不同硬件的适配

八、代表性系统一览

系统	平台	模型	关键创新	状态
Claude Computer Use	桌面	Claude 3.5+	首个商业化桌面 Agent	商用
AgentS	Web	多模型协作	规划-定位-执行分层架构	开源
UGround	跨平台	专用微调	统一视觉定位模型	开源
ShowUI	跨平台	专用微调	视觉-动作对齐训练	开源
CogAgent	Web/桌面	专用微调	高分辨率视觉编码	开源
AppAgent	Android	GPT-4V	探索-执行双阶段	开源
UFO	Windows	GPT-4V	多窗口应用操作	开源
SeeAct	Web	GPT-4V	早期 SoM 探索	开源
WebVoyager	Web	多模型	首个端到端 Web Agent 基准	开源
OSWorld	桌面	评估框架	全 OS 操作基准	开源

九、总结

GUI Agent 是大模型从”对话”走向”行动”的关键桥梁。它让 AI 突破了文本的边界，真正进入人类日常使用的数字环境。

当前状态：技术验证阶段已过，进入实用化攻坚期。Web Agent 接近可用，桌面/移动端 Agent 仍需突破。

核心瓶颈：定位精度、长程规划、安全对齐——这三个问题不解决，GUI Agent 就无法真正放心地交给用户。

终极目标：一个可靠的”数字分身”——你告诉它做什么，它就能在任何 GUI 环境中完成，就像一个熟练的人类助手。

这一天不会太远，但也不会太快。GUI Agent 的发展，正在重新定义人与数字世界的交互方式。

参考文献

He et al., “WebVoyager: Building an End-to-End Web Agent with Large Multimodal Models,” 2024.
Deng et al., “Mind2Web: Towards a Generalist Agent for the Web,” NeurIPS 2023.
Zheng et al., “AgentS: An Open Agentic Framework for Computer Use,” 2024.
Cheng et al., “ShowUI: One Vision-Language-Action Model for GUI Visual Agent,” 2024.
Yang et al., “UGround: Universal Visual Grounding for GUI Agents,” 2024.
Hong et al., “CogAgent: A Visual Language Model for GUI Agents,” CVPR 2024.
Xue et al., “OSWorld: Benchmarking Multimodal Agents for Open-Ended Tasks in Real Computer Environments,” 2024.
Rawles et al., “AndroidWorld: A Dynamic Benchmarking Environment for Autonomous Agents,” 2024.
Yang et al., “AppAgent: Multimodal Agents as Smartphone Users,” 2024.
Zhang et al., “UFO: A UI-Focused Agent for Windows OS Interaction,” 2024.
Zheng et al., “SeeAct: GPT-4V(ision) is a Generalist Web Agent,” 2024.
Wang et al., “ScreenSpot: A Benchmark for GUI Grounding,” 2024.
Anthropic, “Claude Computer Use,” 2024.
Cheng et al., “Set-of-Mark Prompting for Visual Grounding,” 2024.
Li et al., “A Survey on GUI Agents with Foundation Models Enhanced by Reinforcement Learning,” 2025.