大模型图形用户界面操作智能体(GUI Agents)综述:数据、架构、分类、应用、挑战
引言
图形用户界面(GUI)是人类与数字世界交互的主要通道——从桌面操作系统、移动 App 到 Web 应用,绝大多数信息流转都经过 GUI。长期以来,自动化 GUI 操作依赖脆弱的脚本和选择器,一丁点 UI 变动就全线崩溃。
大模型(LLM / MLLM)的出现改变了这一切。GUI Agent 的核心思想是:让大模型像人一样”看”屏幕、”理解”界面、”操作”控件,从而实现通用、鲁棒的 GUI 自动化。从 2023 年 WebVoyager、SeeAct 的早期探索,到 2024–2025 年 AgentS、UGround、ShowUI、Claude Computer Use 等系统的涌现,GUI Agent 已从概念验证走向实用化前夜。
本文从数据、架构、分类、应用、挑战五个维度,对 GUI Agent 领域进行全面梳理。
一、核心概念与问题定义
1.1 什么是 GUI Agent?
GUI Agent 是一种以大模型为认知核心、通过感知和操作图形用户界面来完成任务的智能体。它不依赖 API 或源码,而是像人类用户一样:
- 感知:截取屏幕截图或提取 UI 结构树(DOM / Accessibility Tree)
- 推理:理解当前界面状态、规划下一步操作
- 操作:执行点击、输入、滚动、拖拽等动作
1.2 形式化定义
给定任务指令 $I$,GUI Agent 在时刻 $t$ 观察到界面状态 $s_t$(截图 + 结构化信息),输出动作 $a_t$,环境转移到 $s_{t+1}$,循环直到任务完成或达到步数上限。目标是最小化完成步数、最大化任务成功率。
1 | 观察(s_t) → 推理(I, s_t, history) → 动作(a_t) → 环境转移(s_{t+1}) |
1.3 与传统 RPA 的本质区别
| 维度 | 传统 RPA | GUI Agent |
|---|---|---|
| 定位方式 | CSS/XPath 选择器 | 视觉理解 + 语义定位 |
| 鲁棒性 | UI 变动即崩溃 | 自适应界面变化 |
| 泛化能力 | 仅限预设流程 | 零样本处理新任务 |
| 构建成本 | 需专业开发 | 自然语言即可定义 |
| 容错性 | 异常即停止 | 自我修复与重试 |
二、数据:GUI Agent 的燃料
2.1 数据类型
GUI Agent 的训练和评估依赖四类数据:
截图数据:原始像素输入,最接近人类感知方式。关键挑战是分辨率(4K 屏幕的 token 消耗巨大)和隐私脱敏。
UI 结构树数据:包括 Web 的 DOM 树、Android 的 View Hierarchy、桌面端的 Accessibility Tree。结构化、精确,但获取成本高且某些应用不支持。
轨迹数据:完整的人机交互记录(截图 + 动作序列),是训练 Agent 的核心。高质量轨迹需要专家标注,成本约 $2–10/步。
指令数据:自然语言任务描述,用于评估和训练指令遵循能力。
2.2 代表性数据集
| 数据集 | 规模 | 领域 | 特点 |
|---|---|---|---|
| WebVoyager | 643 任务 | Web | 首个端到端 Web Agent 基准 |
| WebArena | 812 任务 | Web | 真实网站环境,多步骤 |
| Mind2Web | 2,000+ 任务 | Web | 多网站、多样式 |
| AndroidWorld | 116 个 App | Android | 动态环境,真实 App |
| OSWorld | 369 任务 | 桌面 OS | 全操作系统操作 |
| GUI Odyssey | 7K+ 轨迹 | 跨平台 | 手机 + 桌面 |
| Spider2-V | 494 任务 | 数据分析 | GUI + 代码混合 |
| ScreenSpot | 623 样本 | 通用 | 定位精度基准 |
2.3 数据构建方法
- 人工标注:质量最高但成本巨大,如 Mind2Web
- 反向工程:从已有操作日志反推,如 A11y Tree 数据
- 合成生成:用大模型生成轨迹,如 AgentS 的轨迹合成流水线
- 用户录制:通过浏览器插件或系统钩子录制真实操作
2.4 数据挑战
- 隐私合规:截图可能包含敏感信息
- 分布偏移:训练环境与真实环境差异
- 长尾场景:罕见 UI 模式数据稀缺
- 成本控制:高质量轨迹标注的规模化难题
三、架构:GUI Agent 的大脑设计
3.1 感知层
GUI Agent 的感知方式决定了它的能力上限:
纯视觉方案:仅使用截图输入。代表工作包括 CogAgent、Qwen2.5-VL。优势是与平台无关,劣势是精确定位困难(像素级坐标回归误差大)。
纯结构方案:仅使用 UI 树。代表工作包括 SeeAct(Set-of-Mark 标注后输入)。定位精确但丢失视觉信息(颜色、布局、图标)。
混合方案:同时使用截图和 UI 树。代表工作包括 UGround、AgentS。将 UI 树元素标注到截图上(Set-of-Mark),结合视觉语义和结构精确性。这是当前最优方案。
Set-of-Mark(SoM) 是关键技术:在截图上为每个可交互元素画框并编号,Agent 输出编号即可完成定位,将连续坐标回归问题转化为离散选择问题。
3.2 推理层
单步推理:每步独立决策,无历史依赖。简单但容易丢失上下文。
链式推理(CoT):先分析界面、再规划动作。例如:”我看到搜索框在右上角(编号 5),我需要点击它并输入查询词。” 准确率显著提升但增加 token 消耗。
记忆增强推理:维护短期记忆(最近 N 步)和长期记忆(任务级摘要)。AgentS 引入了”经验记忆”——从历史成功轨迹中提取可复用的操作模式。
树搜索推理:在关键决策点展开多个候选动作,评估后选择最优。计算成本高但减少死胡同。
3.3 动作层
动作空间设计是核心权衡:
| 动作类型 | 格式 | 精度 | 泛化性 |
|---|---|---|---|
| 坐标点击 | (x, y) |
低 | 高 |
| 元素选择 | click[id] |
高 | 中 |
| 语义动作 | click("搜索按钮") |
中 | 高 |
| 混合动作 | click[id] + 坐标偏移 |
高 | 高 |
键盘输入:支持文本输入、快捷键、组合键。挑战是输入法交互(中文输入需要多步候选选择)。
滚动操作:垂直/水平滚动,需确定方向和幅度。
拖拽操作:最复杂的原子动作,需要起点-终点对和轨迹规划。
3.4 端到端 vs 分层架构
端到端架构:一个模型完成感知→推理→动作全流程。代表:Claude Computer Use、GPT-4o + Computer Use。优势是简洁,劣势是难以调试。
分层架构:感知模型(定位 UI 元素)+ 决策模型(选择动作)+ 执行层(模拟操作)。代表:AgentS(Planner + Locator + Executor)。优势是模块可独立优化,劣势是误差传播。
当前趋势是端到端为主、分层为辅——主模型端到端推理,关键模块(如精确定位)用专门模型辅助。
四、分类:GUI Agent 的形态谱系
4.1 按平台分类
Web Agent:操作浏览器中的网页。环境最可控(DOM 可获取),研究最成熟。代表:WebVoyager、SeeAct、AgentS。
移动端 Agent:操作 Android/iOS 应用。挑战在于触摸交互、屏幕尺寸小、App 沙盒限制。代表:AppAgent、CogAgent、AndroidWorld。
桌面 Agent:操作操作系统级 GUI。最复杂,需处理多窗口、系统设置、跨应用交互。代表:OSWorld、Claude Computer Use、UFO。
跨平台 Agent:统一架构适配多平台。代表:ShowUI(跨平台视觉 Agent)、UGround。
4.2 按模型类型分类
闭源模型 Agent:基于 GPT-4o、Claude 等闭源 API。性能强但成本高、不可定制。代表:Claude Computer Use、SeeAct(GPT-4V)。
开源模型 Agent:基于 Qwen-VL、CogAgent、ShowUI 等开源模型。可定制、可本地部署,但性能仍有差距。
微调专用模型:针对 GUI 任务微调的专用模型。代表:UGround(定位微调)、ShowUI(视觉-动作对齐)、CogAgent(GUI 理解微调)。在特定任务上超越通用模型。
4.3 按自主程度分类
辅助型 Agent:每步操作需人类确认。安全但效率低。
半自主型 Agent:自主操作,关键节点请求确认。实用与安全的平衡点。
全自主型 Agent:完全自主执行,仅结果汇报。效率最高但风险最大。
4.4 按任务类型分类
- 信息检索:在网站/ App 中查找特定信息
- 表单填写:自动化数据录入
- 工作流执行:完成多步骤业务流程
- 数据分析:操作数据工具生成报告
- 系统管理:操作系统配置和维护
五、应用:从实验室到生产力
5.1 自动化测试
GUI Agent 最直接的应用场景——替代手工 QA 执行回归测试。相比传统自动化测试:
- 无需维护选择器,UI 变动后自动适配
- 用自然语言描述测试用例,降低编写门槛
- 可处理动态内容(弹窗、广告、A/B 测试)
代表实践:Microsoft 的 Playwright MCP Server、Anthropic 的 Claude Computer Use for Testing。
5.2 RPA 升级
传统 RPA 的”脚本脆弱性”是最大痛点。GUI Agent 带来:
- 自适应定位:按钮移动/改名后仍能找到
- 异常自修复:流程出错时尝试替代路径
- 零代码构建:用自然语言描述流程即可生成自动化
商业落地:UiPath、Automation Anywhere 等厂商已开始集成 LLM 能力。
5.3 无障碍辅助
为视障、运动障碍用户提供语音驱动的 GUI 操作:
- 语音指令 → GUI Agent 执行操作
- 自动描述界面内容
- 引导用户完成复杂流程
5.4 数据采集与分析
- 自动爬取结构化数据(绕过反爬时更像人类行为)
- 操作 BI 工具生成报表
- 跨平台数据整合
5.5 个人数字助手
终极愿景——一个 7×24 小时在线的”数字分身”:
- 代为处理邮件、日程、消息
- 自动比价、下单
- 管理文档和文件
六、挑战与开放问题
6.1 定位精度
核心痛点:大模型在像素级定位上的精度远不如人类。在 1920×1080 分辨率的屏幕上,10 像素的偏移可能就点错按钮。
当前方案:
- Set-of-Mark 将坐标回归转为元素选择
- 多尺度视觉编码(高分辨率感知 + 低分辨率推理)
- 专门的定位微调(如 UGround)
未解问题:小元素(图标、链接密集区域)的精确定位仍不可靠。
6.2 长程任务规划
10 步以上的任务成功率急剧下降。原因:
- 累积误差:前一步出错,后续全部偏移
- 上下文遗忘:长对话中丢失初始目标
- 中途恢复困难:出错后无法有效回溯
探索方向:层次化任务分解、检查点机制、自动重试与自我修复。
6.3 实时性
当前 GUI Agent 单步延迟 2–5 秒(含截图、推理、执行),人类操作约 0.5–1 秒。差距来源:
- 截图编码耗时(高分辨率图像的 token 量巨大)
- 大模型推理延迟
- 动作执行与等待页面响应
优化路径:视觉 token 压缩、流式推理、预测性动作。
6.4 安全与对齐
GUI Agent 拥有操作真实系统的能力,安全风险极高:
- 误操作:删除重要文件、发送错误邮件
- 提示注入:恶意网页通过可见文本劫持 Agent 指令
- 权限失控:Agent 获取超出任务需要的系统权限
- 隐私泄露:截图可能包含敏感信息并传回云端
缓解措施:沙盒执行、操作确认机制、权限最小化、本地化部署。
6.5 泛化能力
环境泛化:在训练环境(如特定网站)上表现良好,换到新环境骤降。
任务泛化:已验证的任务类型能做,新类型任务零样本表现差。
根本原因:训练数据覆盖的环境和任务有限,大模型对 GUI 的理解仍偏表面模式匹配而非深层语义。
6.6 评估体系
现有基准的局限性:
- 环境单一:多数基准仅覆盖 Web
- 任务简单:真实任务远比基准复杂
- 指标粗糙:成功率是二元判断,忽略部分完成
- 不可复现:动态网站内容变化导致结果不稳定
改进方向:多平台基准、细粒度评分、可控测试环境、标准化评估协议。
6.7 多模态对齐
GUI 操作需要视觉-语言-动作的精确对齐:
- “点击右上角的红色叉号”需要同时理解位置(右上角)、颜色(红色)、形状(叉号)和动作(点击)
- 当前模型在复杂视觉指代表达上的对齐仍不完善
七、未来方向
7.1 世界模型驱动的 GUI Agent
构建 GUI 的”世界模型”——Agent 不仅能看到当前界面,还能预测操作后的界面变化,从而提前规划多步策略,减少试错。
7.2 经验积累与迁移
从历史操作中提取可复用的”操作技能”(Skills),新任务时组合已有技能而非从零开始。类比人类:学会了用 Excel 就能快速迁移到 Google Sheets。
7.3 人机协同
GUI Agent 不必完全替代人,而是与人协作:
- Agent 处理重复性操作,人做关键决策
- Agent 提供建议,人确认执行
- 人干预时 Agent 学习并改进
7.4 多 Agent 协作
复杂任务拆分给多个专业 Agent:
- 导航 Agent:负责页面跳转和信息检索
- 表单 Agent:负责数据填写
- 验证 Agent:负责结果检查
- 协调 Agent:负责任务分配和冲突解决
7.5 统一 GUI 操作标准
推动建立统一的 GUI Agent 操作协议,类似 HTTP 之于 Web——定义标准的观察格式、动作格式、评估指标,降低系统间迁移成本。MCP(Model Context Protocol)是这一方向的早期尝试。
7.6 本地化与端侧部署
隐私敏感场景(银行、医疗)要求 Agent 在本地运行。挑战在于:
- 端侧模型的能力有限
- 视觉处理的计算开销
- 不同硬件的适配
八、代表性系统一览
| 系统 | 平台 | 模型 | 关键创新 | 状态 |
|---|---|---|---|---|
| Claude Computer Use | 桌面 | Claude 3.5+ | 首个商业化桌面 Agent | 商用 |
| AgentS | Web | 多模型协作 | 规划-定位-执行分层架构 | 开源 |
| UGround | 跨平台 | 专用微调 | 统一视觉定位模型 | 开源 |
| ShowUI | 跨平台 | 专用微调 | 视觉-动作对齐训练 | 开源 |
| CogAgent | Web/桌面 | 专用微调 | 高分辨率视觉编码 | 开源 |
| AppAgent | Android | GPT-4V | 探索-执行双阶段 | 开源 |
| UFO | Windows | GPT-4V | 多窗口应用操作 | 开源 |
| SeeAct | Web | GPT-4V | 早期 SoM 探索 | 开源 |
| WebVoyager | Web | 多模型 | 首个端到端 Web Agent 基准 | 开源 |
| OSWorld | 桌面 | 评估框架 | 全 OS 操作基准 | 开源 |
九、总结
GUI Agent 是大模型从”对话”走向”行动”的关键桥梁。它让 AI 突破了文本的边界,真正进入人类日常使用的数字环境。
当前状态:技术验证阶段已过,进入实用化攻坚期。Web Agent 接近可用,桌面/移动端 Agent 仍需突破。
核心瓶颈:定位精度、长程规划、安全对齐——这三个问题不解决,GUI Agent 就无法真正放心地交给用户。
终极目标:一个可靠的”数字分身”——你告诉它做什么,它就能在任何 GUI 环境中完成,就像一个熟练的人类助手。
这一天不会太远,但也不会太快。GUI Agent 的发展,正在重新定义人与数字世界的交互方式。
参考文献
- He et al., “WebVoyager: Building an End-to-End Web Agent with Large Multimodal Models,” 2024.
- Deng et al., “Mind2Web: Towards a Generalist Agent for the Web,” NeurIPS 2023.
- Zheng et al., “AgentS: An Open Agentic Framework for Computer Use,” 2024.
- Cheng et al., “ShowUI: One Vision-Language-Action Model for GUI Visual Agent,” 2024.
- Yang et al., “UGround: Universal Visual Grounding for GUI Agents,” 2024.
- Hong et al., “CogAgent: A Visual Language Model for GUI Agents,” CVPR 2024.
- Xue et al., “OSWorld: Benchmarking Multimodal Agents for Open-Ended Tasks in Real Computer Environments,” 2024.
- Rawles et al., “AndroidWorld: A Dynamic Benchmarking Environment for Autonomous Agents,” 2024.
- Yang et al., “AppAgent: Multimodal Agents as Smartphone Users,” 2024.
- Zhang et al., “UFO: A UI-Focused Agent for Windows OS Interaction,” 2024.
- Zheng et al., “SeeAct: GPT-4V(ision) is a Generalist Web Agent,” 2024.
- Wang et al., “ScreenSpot: A Benchmark for GUI Grounding,” 2024.
- Anthropic, “Claude Computer Use,” 2024.
- Cheng et al., “Set-of-Mark Prompting for Visual Grounding,” 2024.
- Li et al., “A Survey on GUI Agents with Foundation Models Enhanced by Reinforcement Learning,” 2025.