ICCV 2025(IEEE/CVF International Conference on Computer Vision)将于2025年10月19日至23日在美国夏威夷举行。ICCV是计算机视觉领域最具影响力的国际顶级会议之一,也是中国计算机学会(CCF)推荐的A类国际学术会议。该会议每两年举办一次,由美国电气和电子工程师学会(IEEE)与计算机视觉基金会(CVF)联合主办。
论文题目:Rethinking Discrete Tokens: Treating Them as Conditions for Continuous Autoregressive Image Synthesis
第一作者:郑鹏(2024级博士研究生)
收录会议:ICCV 2025 (CCF-A类)
指导教师:马锐
论文概述:近年来,随着自回归大语言模型的迅速发展,将图像编码为离散token并结合自回归框架进行视觉生成的方式受到广泛关注。然而,这种离散化过程不可避免地引入信息损失,降低了图像的保真度。为缓解这一问题,近期有研究尝试直接对图像的连续表示进行自回归建模,但连续表示在密度建模上更具挑战性,也更容易生成分布外伪影。基于上述观察,本文提出了一种新颖的生成框架DisCon。与以往将离散token作为生成目标的方法不同,DisCon将其作为条件信号,引导连续表示的建模过程。通过建模在离散token下连续表示的条件概率分布,DisCon既避免了离散化带来的信息损失,也缓解了直接建模连续空间的优化难题。在ImageNet 256数据集上,DisCon实现了1.38的gFID分数,优于现有的自回归生成方法。
