2022级博士研究生牛润良论文被IJCAI'2024接收

发布时间:2024-04-18 点击:

       2022级博士研究生牛润良同学的论文被CCF-A类国际会议IJCAI 2024接收。国际人工智能联合会议(International Joint Conference on Artificial Intelligence, IJCAI)是人工智能领域中最主要的学术会议之一。该研究是在人工智能学院王琪助理教授指导下进行的。第一作者牛润良同学主要从事自然语言处理、大模型和模型可解释等研究工作。王琪老师主要从事大语言模型,图学习,强化学习等研究工作。

论文题目ScreenAgent: A Vision Language Model-driven Computer Control Agent

第一作者:牛润良

指导教师:王琪

论文概述

       本文首次探索在无需辅助定位标签的情况下,利用视觉语言模型智能体(VLM Agent)直接输出鼠标和键盘控制指令,实现大模型智能体端到端直接操控电脑的目标。为了实现与图形用户界面的直接交互,大模型智能体需要同时具备任务规划、图像理解、视觉定位、工具使用等多种综合能力。现有模型或交互方案在视觉定位或函数调用能力方面均存在一定的限制与妥协。为解决上述问题,该工作构建了一个与真实计算机屏幕交互的全新环境。在这个环境中,VLM Agent可以观察屏幕截图,并通过输出鼠标和键盘操作指令来操纵图形用户界面。为了引导智能体与计算机屏幕进行持续的交互,本文提出了一个「计划-执行-反思」的运行流程。值得一提的是,ScreenAgent并不依赖额外的文字识别或图标识别模块,采用端到端的方式进行训练。该工作是对人机交互方式的一次全新探索,并开源了具备精准定位信息的数据集、控制器、训练代码等。