清华团队推出轻量级端侧GUI Agent,用代码生成技术提升任务效率

发布时间:2025-06-23 00:02:21

本文作者:小古

从感知式 AI(理解图像、文字和声音)到生成式 AI(创造文本、图像和声音),再到能够感知、推理、计划和行动的智能体(即 AI Agent),我们正见证着 AI 能力的下一代进化。

Claude Computer Use、OpenAI Operator、Manus 等这些能够操控电脑、手机等终端设备的大语言模型驱动智能体,毫无疑问代表了 AI 发展的下一个核心方向。这些系统通过自然语言理解用户指令,分析图形用户界面(GUI,Graphical User Interface),并生成相应的操作动作,有望极大提升人的工作效率。

但目前,这些最为先进的智能体大都基于云端模型,而这就导致它们面临隐私和安全隐患、高昂的服务器成本,以及对网络的依赖等局限。因此,将这些智能体部署到设备端也是它们进一步发展的关键方向,但如何在性能有限的设备上实现高效准确的任务自动化,成为了需要攻克的难题。

为解决这一问题,清华大学智能产业研究院的李元春助理教授团队开发了 AutoDroid 系列,致力于将大模型智能体部署到设备端,实现更安全高效的任务处理。其最近推出的 AutoDroid-V2 成功将这一构想推向了新的高度。

日前,相关论文以《AutoDroid-V2:通过代码生成提升基于 SLM 的 GUI 智能体》(AutoDroid-V2: Boosting SLM-based GUI Agents via Code Generation)发表在预印本网站arXiv上 [1],并于近期被移动计算领域顶级会议 ACM MobiSys 2025 接收。

清华大学温皓博士是第一作者,李元春是通讯作者。

图片来源:互联网

图丨相关论文(来源:arXiv)

图片来源:互联网

从 AutoDroid-V1 到 V2

2023 年推出的 AutoDroid-V1 是团队最初的突破性尝试,其核心思路是通过离线探索获取应用知识,然后在在线任务决策中辅助智能体。AutoDroid-V1 主要解决的是大模型在移动设备任务自动化中的知识获取问题。尽管传统的大模型具备丰富的通用知识,但对特定应用程序的操作流程和功能理解有限。通过随机探索应用界面,V1 构建了 UI 转换图,记录不同界面间的转换关系和操作方式,形成了应用特定的记忆库。

图片来源:互联网

图丨 一个大模型驱动的移动任务自动化示例(来源:arXiv)

在任务执行阶段,AutoDroid-V1 采用了逐步决策机制,即针对每个 GUI 状态调用大模型做决策。系统会将当前任务、UI 状态描述以及从记忆库中检索到的相关知识一起送入大模型,获取下一步操作建议。这种方法虽然提高了大模型在特定应用中的操作准确性,但仍然面临着高频调用大模型的效率问题。

针对 V1 中发现的问题,该课题组在 AutoDroid-V2 中提出了全新的程序生成范式。“最近提出的 AutoDroid-V2 则在它的基础上进一步提升端侧智能体的任务执行精度和效率。”李元春介绍道,“AutoDroid-V2 核心思路是把智能体的任务自动化问题转化为程序生成问题,利用小型语言模型的代码生成能力,将复杂移动设备操作任务转变为代码生成流程。通过这种程序生成方式,每个用户任务仅需调用一次或少数几次模型,显著提升了效率,还适合移动端部署。”

这种基于脚本的方法与 V1 及其他传统方法采用的基于步骤的方法有着本质区别。V1 中每个 GUI 状态都需要调用模型进行决策,而 V2 只需调用一次模型生成完整脚本,大幅减少了模型调用次数和耗时。V1 需要模型具备强大的推理和反思能力,这些能力通常只有大型云端模型才具备。V2 主要依赖小型语言模型的代码生成能力,这种能力相对更容易获得和优化。

图片来源:互联网

(来源:arXiv)

为了实现高质量的脚本生成,AutoDroid-V2 需要足够多的高质量训练数据。研究团队搭建了一套自动数据合成流程,包括自定义的用于执行操作任务的领域特定语言(DSL,Domain-Specific Language)和与之相对应的运行时系统。现有的移动端任务自动化数据集规模有限且覆盖场景不足,而 V2 通过让大模型基于应用文档生成多样化的模拟任务和执行方案,再通过实际运行验证来筛选高质量数据,解决了训练数据稀缺的难题。这些合成数据被用于微调本地小型语言模型,使其获得了在有限资源条件下生成高质量执行脚本的能力。

从工作机制上看,AutoDroid-V1 和 V2 都分为离线和在线两个阶段,但具体实现有很大不同。V1 主要构建 UI 转换图,记录 UI 状态和转换关系。

V2 则更进一步:离线阶段,构建高效的应用程序文档,分析应用程序的 GUI 结构,进行 GUI 状态压缩、元素路径生成以及 UI 组件依赖关系分析,为任务脚本生成提供可靠数据基础。同时,基于文档自动生成大量模拟任务和解决方案,用来微调本地大模型。

图片来源:互联网

图丨 AutoDroid-V2 的架构(来源:arXiv)

在线阶段,V1 需要针对每个 GUI 状态调用大模型进行决策,而 V2 仅需调用一次微调后的小型语言模型即可生成完整的执行脚本。V2 的脚本由专门设计的解释器执行,能够适应运行时的动态变化。这种设计大幅减少了模型调用次数和计算资源消耗,同时降低了对模型推理能力的要求。

技术评估显示,与传统方法相比,AutoDroid-V2 在性能和效率方面取得了显著提升。在包含 23 个移动应用的 226 个任务测试中,V2 实现了 10.5%-51.7% 更高的任务完成率,显著高于 V1 的 10.5% 到 43.9%。此外,V2 将运行时输入和输出令牌消耗分别减少了约 18% 和 85.2%,推理延迟也大幅降低。这些数据表明,V2 的架构创新成功解决了 V1 中存在的效率和资源消耗问题。

图片来源:互联网

(来源:arXiv)

图片来源:互联网

从移动应用测试到智能体

李元春团队投身设备操作智能体相关研究的时间,远比它开始火爆要早得多。“早在 2016、2017 年的时候,我们研究的重点聚焦于移动应用的智能化自动测试。”李元春回忆说,“那时的目标很明确,就是让系统能够自动地与应用软件进行交互,以此来实现最大化的测试覆盖率。虽然和如今大家热议的 GUI Agent 在应用方向上有所不同,但本质上却有很多相似之处。像规划、决策以及交互动作执行等关键模块,在那时的研究中就已经不可或缺。”

图片来源:互联网

图丨李元春(来源:李元春)

为了达成目标,该课题组开发了一系列实用的开源工具,其中比较知名的包括 DroidBot 和 Humanoid。在技术实现上,当时主要运用的是传统的机器学习算法以及基于图的算法。这些工具和算法在当时的移动应用测试领域发挥了重要作用,帮助团队在自动测试的道路上积累了宝贵的经验。

2021 年,他们迎来了研究的一个重要转折点。通过与微软雷德蒙德研究院的深度合作,开始着手打造真正意义上的、以在软件中自动完成任务为目的的 GUI Agent。在这个阶段,团队开发出了基于强化学习的系统 Glider,它能够自动发现 Web 页面中的任务执行动作序列。

图片来源:互联网

图丨相关论文(来源:Microsoft)

然而,随着研究的深入,研究人员逐渐发现基于传统方法开发的 Agent 存在泛化性较差的缺点。“简单来说,这些 Agent 在面对训练过程中从未见过的全新任务时,往往表现得束手无策,很难灵活地应对和完成。这一问题一直困扰着我们,也成为了研究继续推进的一大阻碍,”李元春表示。

直到大模型的横空出世,团队看到了解决这一难题的曙光。“在最初,我们只是做了一些简单的尝试,将大模型引入到现有的智能体框架中。虽然这些初步的尝试展现出了一些潜力,比如在某些任务上的表现相比传统方法有了一定的提升,但同时也暴露出了很多亟待解决的问题。其中,最为突出的就是任务执行成功率不够高,执行效率也远远不尽如人意。”

经过不断的探索和迭代,该课题组先后推出了 AutoDroid-V1 和 AutoDroid-V2,每一代产品都针对前一代的问题进行了重要改进。“很欣喜看到端侧 Agent 从学术走向产业,效果稳步提升”李元春介绍道。

图片来源:互联网

GUI Agent 的当下与未来

李元春表示,当前学术界和产业界对于 GUI Agent 这个研究方向持一种比较复杂的态度。“首先,GUI Agent 作为大模型的一个应用场景,比较有趣但似乎实用性还有较多争议。我记得两年前有一次做一个学术报告,有位专家就问道:‘就像苹果的 Siri 并没有引发大规模人机交互方式的变革一样,GUI Agent 是不是也仅仅是一个进阶版的玩具?’”

他认为,GUI Agent 代表了一种需要融合用户意图理解、环境理解与交互、反思与记忆等能力的综合智能,而这样的智能在很多场景下都是适用的,其中包括机器人等具身智能场景。“退一步说,即使限定在 GUI Agent 这个领域,随着其智能程度不断提升,也会由量变引发质变,想象有一天有一个机器人用电脑和手机用的比受过训练的人都好,那意味着很多复杂的工作都可以交给它去做了。”

不过,李元春也坦言目前这个领域的发展还是有不少泡沫:“GUI Agent 是一个比较容易通过根据场景定制做出还不错的 demo 的方向,有很多团队发布了很酷炫的 demo,给人一种‘问题已经被解决’的错觉。而实际上,在这个领域的研究者都知道它的泛化能力、安全性等还存在很多挑战,尤其是考虑端侧的实用性就更有难度了。还需要脚踏实地,耐心地解决问题,把真实的效果提升上去。”

未来,他们计划打算进一步优化 AutoDroid-V2 的性能。虽然目前它在任务完成率、效率等方面表现不错,但也还存在较大的进步空间。该团队计划探索更先进的算法和模型架构,进一步提高小型语言模型在复杂任务中的推理和决策能力,同时结合一些系统层面的优化减少任务执行时间和资源消耗也是他们研究的关键方向。

另一方面,研究人员还想拓展 AutoDroid-V2 的应用场景。目前主要集中在移动设备任务自动化,未来希望将其应用到更多领域,比如智能家居控制、驾舱智能交互、工业自动化流程中的设备操作等。“我们计划开展与各种类型企业的合作,共同探索端侧智能体在实际产品中的应用,推动技术的落地转化,让更多人受益于这项研究成果。”李元春补充道。

参考资料:

1.https://arxiv.org/abs/2412.18116

2.https://arxiv.org/abs/2308.15272

运营/排版:何晨龙

本文转载自互联网,如有侵权,联系删除。

相关文章