人工智能学院2021级博士研究生黄思理的论文被CCF-A类会议ICML 2024接收

发布时间:2024-05-02 点击:

人工智能学院2021级博士研究生黄思理的论文《In-Context Reinforcement Learning with Hierarchical Chain of Experience》被CCF-A类会议ICML 2024接收。ICML,全称为国际机器学习会议(International Conference on Machine Learning)。ICML是机器学习与泛人工智能领域的顶级国际会议。

黄思理同学是强化学习项目组成员,一直从事深度强化学习、迁移学习相关的研究工作,本篇工作由陈贺昌、杨博老师共同指导,同时与美国里海大学(Lehigh University)的Lichao Sun老师合作完成。

论文题目:In-Context Reinforcement Learning with Hierarchical Chain of Experience

第一作者:黄思理

收录会议:ICML’2024(CCF A)

指导教师:陈贺昌,杨 博

论文概述:上下文学习通过任务提示处理在线任务,是一种很有前景的情境强化学习方法。最近的研究表明,当将强化学习任务视为跨情景序列预测问题时,情境强化学习可以以一种试错的方式实现自我改进。尽管自我改进不需要梯度更新,但当跨情景序列随着任务视界增加时,现有的工作仍然存在较高的计算成本。因此,我们提出分层经验链上下文(H2C),以高水平的试错方式实现自我完善。具体而言,H2C的灵感来自于人类决策中高效的层次结构,由高层决策决取代与环境交互的低层动作组成的序列。由于一个高层决策可以指导多步骤的低层行动,H2C自然的避免了序列过长,解决线上任务更高效。实验结果表明,与当前的情境强化学习方法相比,H2C在长视界任务中达到了最先进的水平。特别的,我们的H2C在线评估时间比D4RL中的基线快了36倍,比Grid World中的基线快了27倍。