2025年春季学期-人工智能前沿讲座（第二讲）——吉林大学准聘副教授王琪学术报告

发布时间：2025-04-01 点击：次

报告题目：视觉语言模型驱动的GUI智能体

报告人：王琪吉林大学人工智能学院准聘副教授

报告摘要：

大语言模型（LLM）可通过调用多种工具与API来完成复杂任务。作为最强大且通用的工具，计算机有望被训练有素的LLM智能体所操控。借助计算机的强大能力，可以构建更通用的智能体，协助人类完成各类日常数字工作。本报告介绍一个视觉语言模型（VLM）驱动的智能体。首先，构建一个与真实计算机屏幕交互的环境，在这一环境中，智能体能够观察屏幕截图，并通过输出鼠标和键盘操作来操控图形用户界面（GUI）。同时，设计了包含规划、执行与反思阶段的自动化控制流程，引导智能体持续与环境交互以完成多步骤任务。最终训练出的ScreenAgent模型展现出与GPT-4V相当的计算机控制能力，并表现出更精准的UI定位能力。本研究可为构建通用型LLM智能体的后续探索提供启发。、

报告人简介：

王琪博士，吉林大学人工智能学院准聘副教授，研究方向为大语言模型、强化学习及图表示学习，已在CCF A、B类会议期刊发表论文10余篇。主持国家自然基金青年基金一项，科技部国家重点研发计划任务负责人。

报告时间：2025年4月3日 3-4节

报告地点：吉林大学前卫校区-逸夫楼-611

上一篇：人工智能学院系列学术活动（第57场）——中科院自动化所助理研究员姚满学术报告下一篇：2025年春季学期-人工智能前沿讲座（第一讲）——吉林大学助理教授王元宏学术报告

科学研究

2025年春季学期-人工智能前沿讲座（第二讲）——吉林大学准聘副教授王琪学术报告