2022级博士研究生叶航廷同学论文被ICLR'2024接收

发布时间:2024-01-30 点击:

ICLR,全称为International Conference on Learning Representations,又称国际表征学习大会,该会议每年举办一次。ICLR是机器学习领域全球最高级别的学术会议之一,关注有关深度学习各个方面的前沿研究。ICLR'2024将于2024年5月7日-11日在奥地利维也纳举行。在本次会议中,人工智能学院师生共有7篇文章被接收。

论文题目:PTaRL: Prototype-based Tabular Representation Learning via Space Calibration

主要作者:叶航廷博士,郭丹丹教授,常毅教授

收录会议:ICLR'2024

会议类别:清华大学推荐A类

论文概述:

表格数据在各个现实领域中扮演着极为重要的角色,如医疗、工程、金融等。随着最近深度学习在计算机视觉和自然语言处理领域取得巨大成功,许多基于深度学习网络的表格机器学习方法(例如Transformer、ResNet等)在表格基准数据集上取得了有竞争力的效果。然而,现有的深度表格机器学习方法存在表示纠缠和局部化问题,这在很大程度上阻碍了它们的预测性能,并导致在表格预测任务上性能不一致。

为了克服这些问题,我们探索了一种新颖的将原型学习应用于表格机器学习的方向,并提出了基于原型的表格表示学习框架PTaRL,用于表格预测任务。PTaRL的核心思想是构建基于原型的投影空间(P-Space),并学习围绕全局数据原型的解纠缠表示。具体而言,PTaRL主要包括两个阶段:(i)原型生成,构建全局原型作为P-Space的空间表示基向量,以及(ii)原型投影,将数据样本投影到P-Space并通过最优传输理论保留核心全局数据信息。然后,为了进一步获得解纠缠表示,我们通过两种策略对PTaRL进行了约束:(i)为了使P-Space中不同表示的坐标系数多样化,我们提出了一个用于表示校准的多样化约束;(ii)为了避免P-Space中的原型纠缠,我们引入了一个矩阵正交约束,以确保全局原型的独立性。

最后,我们在各种表格基准数据集上对PTaRL与最先进的深度表格机器学习模型进行了大量验证性实验,结果显示了PTaRL在很大程度上优于已有方法。