人工智能学院博士研究生黄思理的论文《Decision Mamba: Reinforcement Learning via Hybrid Selective Sequence Modeling》被CCF-A类会议NeurIPS 2024接收。NeurIPS,全称为神经信息处理系统大会(Conference and Workshop on Neural Information Processing Systems),该会议固定在每年的12月举行,由NeurIPS基金会主办。NeurIPS是机器学习与泛人工智能领域的顶级国际会议。
黄思理同学是强化学习项目组成员,一直从事深度强化学习、迁移学习相关的研究工作,本篇工作由杨博、陈贺昌老师共同指导,同时与美国里海大学(Lehigh University)的Lichao Sun老师合作完成。
论文详情:
题目:Decision Mamba: Reinforcement Learning via Hybrid Selective Sequence Modeling
第一作者:黄思理
会议名称:Thirty-eighth Conference on Neural Information Processing Systems (NeurIPS 2024)
会议类别:CCF A类会议
论文概述:最近的研究表明,Transformer模型将强化学习(RL)任务建模顺序任务表展现出了很大的潜力。其中,基于Transformer的智能体可以通过提供任务上下文(例如称为上下文强化学习的多条轨迹),于在线环境中实现自我完善。然而,由于Transformer中注意力的二次计算复杂度,当前的上下文强化学习方法随着任务视界的增加而产生了巨大的计算成本。相比之下,Mamba模型以其处理长期依赖关系的高效性而闻名,这为上下文强化学习解决需要长期记忆的任务提供了机会。为此,我们首先通过替换Decision Transformer (DT)的主干部分实现了Decision Mamba (DM)。然后,我们提出了Decision Mamba-Hybrid(DM-H),它同时继承了Transformer和Mamba在高质量预测和长期记忆两方面的优点。具体而言,DM-H首先通过Mamba模型从长期记忆中产生高价值子目标。然后,我们使用子目标来提示Transformer,建立高质量的预测。实验结果表明,DM-H在长期和短期任务中都达到了最先进的水平。在效率方面,长期任务中DM-H的在线测试比基于Transformer的基线快28倍。