2026年春季学期-人工智能前沿讲座-第五讲——新加坡科技研究局前沿人工智能研究中心余兴瑞(Research Scientist)学术报告

发布时间：2026-05-11 点击：次

报告题目：流匹配赋能在线强化学习的前沿探索

报告人：余兴瑞 Research Scientist 新加坡科技研究局前沿人工智能研究中心

报告摘要：

近年来，以扩散模型（Diffusion）和流匹配（Flow Matching）为代表的生成式模型在策略表达上展现出超越传统Gaussian策略的能力，能够精确捕捉专家行为中的多峰动作分布。然而，将这类模型直接应用于在线强化学习（RL）却面临根本性障碍：其似然不可解析，梯度需反向传播穿越长ODE链，导致训练极其不稳定。本报告围绕ICML2026两篇论文展开，系统介绍两种截然不同但殊途同归的解决思路。两篇论文共同揭示了一条清晰的设计原则：不应强迫生成模型承受RL梯度的冲击，而应通过精心设计的接口将分布理解力注入策略优化过程，兼顾稳定性与表达力。

报告人简介：

余兴瑞博士毕业于澳大利亚悉尼科技大学（University of Technology Sydney）。现就职于新加坡科技研究局前沿人工智能研究中心(A*STAR CFAR)任Research Scientist。主要研究方向包括：弱监督学习、模仿学习、逆强化学习、具身智能等。已在多个国际知名期刊和会议上发表了超过20篇学术论文，包括ICML、ICLR、NeurIPS、ACL、AAAI、AAMAS、JAIR以及IEEE TGRS等。

报告时间：2026年5月14日 5-6节 13:30-15:10

线下地点：吉林大学前卫校区-正新楼4楼学生教室

线上入口：腾讯会议742-742-835

上一篇：2026年春季学期-人工智能前沿讲座-第六讲----新加坡科技研究局（A*STAR）研究员吴龑学术报告下一篇：人工智能学院系列学术活动（第81场）——韩国汉阳大学 ERICA 校区Gwanghyun Jo（조광현）副教授学术报告

科学研究

2026年春季学期-人工智能前沿讲座-第五讲——新加坡科技研究局前沿人工智能研究中心余兴瑞(Research Scientist)学术报告