报告题目:流匹配赋能在线强化学习的前沿探索
报告人:余兴瑞 Research Scientist 新加坡科技研究局前沿人工智能研究中心
报告摘要:
近年来,以扩散模型(Diffusion)和流匹配(Flow Matching)为代表的生成式模型在策略表达上展现出超越传统Gaussian策略的能力,能够精确捕捉专家行为中的多峰动作分布。然而,将这类模型直接应用于在线强化学习(RL)却面临根本性障碍:其似然不可解析,梯度需反向传播穿越长ODE链,导致训练极其不稳定。本报告围绕ICML2026两篇论文展开,系统介绍两种截然不同但殊途同归的解决思路。两篇论文共同揭示了一条清晰的设计原则:不应强迫生成模型承受RL梯度的冲击,而应通过精心设计的接口将分布理解力注入策略优化过程,兼顾稳定性与表达力。
报告人简介:
余兴瑞博士毕业于澳大利亚悉尼科技大学(University of Technology Sydney)。现就职于新加坡科技研究局前沿人工智能研究中心(A*STAR CFAR)任Research Scientist。主要研究方向包括:弱监督学习、模仿学习、逆强化学习、具身智能等。已在多个国际知名期刊和会议上发表了超过20篇学术论文,包括ICML、ICLR、NeurIPS、ACL、AAAI、AAMAS、JAIR以及IEEE TGRS等。
报告时间:2026年5月14日 5-6节 13:30-15:10
线下地点:吉林大学前卫校区-正新楼4楼学生教室
线上入口:腾讯会议742-742-835
