人工智能学院胡纪锋博士关于生成式强化学习扩散策略的相关研究成果,被人工智能领域国际顶级期刊《IEEE Transactions on Pattern Analysis and Machine Intelligence》(TPAMI,IF=18.6)接收。TPAMI创刊于1979年,是人工智能领域重要的学术期刊之一,该期刊由IEEE计算机学会出版,主要收录计算机视觉、模式识别、机器学习等方向的原创性科研成果。
论文题目:Instructed Diffuser with Temporal Condition Guidence for Offline Reforcement Learning
第一作者:胡纪锋
指导教师:陈贺昌、常毅
收录期刊:IEEE Transactions on Pattern Analysis and Machine Learning
期刊类别:CCF-A
论文概述:
近期研究表明,扩散模型在解决计算机视觉和自然语言处理问题时展现出优越的性能。除了经典的监督学习方法,扩散模型可将决策问题建模为序列生成过程,在解决强化学习决策与控制问题时展现出强大的竞争力。然而,如何将序列数据的时序信息融入到扩散模型,并利用其指导模型实现更优的序列生成,仍然是一个开放性挑战。该工作提出了一种新型的时序条件扩散模型(Temporally-Composable Diffuser,TCD),可从强化学习序列中提炼时序条件信息,识别出历史条件、即时条件和前瞻条件,并通过时序条件显式地指导生成过程,实现生成式强化学习策略地可控生成。大量的实验和分析表明TCD在离线强化学习任务中具有良好的适用性,在智能体的任务规划、自主决策、场景适应等方面都超越了现有最好方法。
