人工智能学院常毅教授指导的2019级博士研究生陈星的论文“The Sufficiency of Off-policyness and Soft Clipping: PPO is still insufficient according to an Off-policy Measure”被CCF-A类会议AAAI 2023接收。
国际先进人工智能协会(Association for the Advancement of Artificial Intelligence, AAAI)是人工智能领域的主要国际学术组织之一。该协会主办的AAAI年会(AAAI Conference on Artificial Intelligence)是国际顶级人工智能学术会议之一。
陈星同学是强化学习项目组成员,一直从事深度强化学习、多智能体深度强化学习相关的研究工作。该工作与加拿大阿尔伯塔大学(University of Alberta)的Hengshuai Yao老师和我院的陈贺昌老师合作完成。
论文详情:
题目:Sufficiency of Off-policyness and Soft Clipping: PPO is still insufficient according to an Off-policy Measure
第一作者:陈星
会议名称:The 37th AAAI Conference On Artificial Intelligence(AAAI 2023)
会议类别:CCF A类会议
论文概述:当前主流的策略梯度方法都基于保守策略迭代目标做改进。保守策略迭代一个重要的组件是重要性采样。过大的重要性采样系数会导致策略梯度方法失效。因此,PPO使用代理函数并在两个裁剪策略空间中寻求解决方案的近似值。推动这篇论文的一个想法是,在它们之外是否存在更好的策略?我们基于sigmoid压缩函数提出一个新的scopic代理函数,这个代理函数会产生了一种有趣的探索方式,以至于我们发现在这两个裁剪策略空间之外确实存在更好的策略,并且找到的策略可能和裁剪策略差异很大。我们在离散任务和连续任务上与几种表现最好的算法进行了比较,结果表明在DEON度量评估下,PPO算法并不可以很好地进行off-policy学习,并且P3O探索的策略空间比PPO大得多。结果还表明,我们的方法在训练期间比PPO更好地最大化了原始的策略梯度目标。据我们所知,大多数改进PPO的文章都继承了剪裁操作并在两个剪裁的策略空间中进行了优化。我们的方法是第一次对代理优化函数做改进。这给我们提供了对保守策略迭代策略梯度方法的新思考。