Pattern Recognition 创刊于1968年,是模式识别与人工智能领域的国际学术期刊,涵盖了计算机视觉、机器学习、强化学习和数据挖掘等领域的方法、技术、应用的最新研究成果。
论文题目:HiPPO: Enhancing Proximal Policy Optimization with Highlight Replay
第一作者:张舒童
指导教师:陈贺昌、常毅
收录期刊:Pattern Recognition
论文概述:
样本效率仍然是强化学习中策略梯度方法面临的一个重要挑战。经验回放的成功表明,通过离策略方法利用历史经验,对于增强近似策略学习算法至关重要,这些算法旨在最大化当前交互样本的再利用,从而使近似策略与目标策略对齐。然而,不准确的近似可能会对实际优化产生负面影响,导致当前的经验质量低于过去的经验。我们提出了高亮回放增强的近端策略优化方法(HiPPO)。具体而言,HiPPO通过高亮策略回放并引入惩罚奖励函数进行约束优化,从而缓解策略相似性约束,并增强对历史经验的适应性。实验证明,HiPPO在MuJoCo连续任务中的表现均超过了最先进的算法。全面的实验分析和消融研究验证了所提方法的有效性。