2025年春季学期-人工智能前沿讲座-第二讲

发布时间:2025-04-01 点击:

报告题目:视觉语言模型驱动的GUI智能体

报告人:王琪 吉林大学人工智能学院准聘副教授

报告摘要:

大语言模型(LLM)可通过调用多种工具与API来完成复杂任务。作为最强大且通用的工具,计算机有望被训练有素的LLM智能体所操控。借助计算机的强大能力,可以构建更通用的智能体,协助人类完成各类日常数字工作。本报告介绍一个视觉语言模型(VLM)驱动的智能体。首先,构建一个与真实计算机屏幕交互的环境,在这一环境中,智能体能够观察屏幕截图,并通过输出鼠标和键盘操作来操控图形用户界面(GUI)。同时,设计了包含规划、执行与反思阶段的自动化控制流程,引导智能体持续与环境交互以完成多步骤任务。最终训练出的ScreenAgent模型展现出与GPT-4V相当的计算机控制能力,并表现出更精准的UI定位能力。本研究可为构建通用型LLM智能体的后续探索提供启发。 、

报告人简介:

王琪博士,吉林大学人工智能学院准聘副教授,研究方向为大语言模型、强化学习及图表示学习,已在CCF A、B类会议期刊发表论文10余篇。主持国家自然基金青年基金一项,科技部国家重点研发计划任务负责人。

报告时间:2025年4月3日 3-4

报告地点:吉林大学前卫校区-逸夫楼-611