2019级博士研究生陈星论文被AAAI'2023接收

发布时间：2022-11-20 点击：次

人工智能学院常毅教授指导的2019级博士研究生陈星的论文“The Sufficiency of Off-policyness and Soft Clipping: PPO is still insufficient according to an Off-policy Measure”被CCF-A类会议AAAI 2023接收。

国际先进人工智能协会（Association for the Advancement of Artificial Intelligence, AAAI）是人工智能领域的主要国际学术组织之一。该协会主办的AAAI年会（AAAI Conference on Artificial Intelligence）是国际顶级人工智能学术会议之一。

陈星同学是强化学习项目组成员，一直从事深度强化学习、多智能体深度强化学习相关的研究工作。该工作与加拿大阿尔伯塔大学（University of Alberta）的Hengshuai Yao老师和我院的陈贺昌老师合作完成。

论文详情：

题目：Sufficiency of Off-policyness and Soft Clipping: PPO is still insufficient according to an Off-policy Measure

第一作者：陈星

会议名称：The 37th AAAI Conference On Artificial Intelligence(AAAI 2023)

会议类别：CCF A类会议

论文概述：当前主流的策略梯度方法都基于保守策略迭代目标做改进。保守策略迭代一个重要的组件是重要性采样。过大的重要性采样系数会导致策略梯度方法失效。因此，PPO使用代理函数并在两个裁剪策略空间中寻求解决方案的近似值。推动这篇论文的一个想法是，在它们之外是否存在更好的策略？我们基于sigmoid压缩函数提出一个新的scopic代理函数,这个代理函数会产生了一种有趣的探索方式，以至于我们发现在这两个裁剪策略空间之外确实存在更好的策略，并且找到的策略可能和裁剪策略差异很大。我们在离散任务和连续任务上与几种表现最好的算法进行了比较，结果表明在DEON度量评估下，PPO算法并不可以很好地进行off-policy学习，并且P3O探索的策略空间比PPO大得多。结果还表明，我们的方法在训练期间比PPO更好地最大化了原始的策略梯度目标。据我们所知，大多数改进PPO的文章都继承了剪裁操作并在两个剪裁的策略空间中进行了优化。我们的方法是第一次对代理优化函数做改进。这给我们提供了对保守策略迭代策略梯度方法的新思考。

上一篇：2018级博士研究生李玉论文被AAAI'2023接收下一篇：2021级博士研究生程博论文被AAAI'2023接收

科学研究

2019级博士研究生陈星论文被AAAI'2023接收