报告题目:大规模相似度检索和相似度矩阵补全
报告摘要:
在图像检索、文本检索和自然语言处理等领域,大规模相似度检索都扮演着核心角色。然而现在中的数据不完整,如查询信息不完整、数据采集失误、用户行为缺失等,都导致数据缺失现象普遍存在。而这些数据缺失直接导致了相似度矩阵不准确进而影响相似度检索的准确率。而如何从不准确的相似性矩阵中,快速、精准地校准出真实相似度,成为当前工业界和学术界亟待解决的关键难题。本次报告将聚焦于相似度矩阵校准(Similarity Matrix Calibration, SMC)领域,旨在从这些初始的不准确的相似度矩阵,校准相似度误差,从而使的校正的相似度矩阵更接近数据完整时的真实的相似度矩阵。该研究创新地利用相似度矩阵半正定属性和低秩属性,设计全新的SMC框架。为提高效率,我们引入半正定矩阵特有的科列斯基分解(Cholesky Factorization),学习较小的分解矩阵代替原始大规模的相似度矩阵。为确保算法的理论最优结果, 我们针对低秩属性设计了特定的正则项,以确保模型在能达到最优相似度校正结果。基于此框架,我们进一步探索了如何有效整合辅助特征信息,提升相似度矩阵校准效果。该方法在多项基准测试中均展现出卓越的相似度矩阵校正效果的有效性和领先校准速度。在本次报告的最后,我们将简要讨论如何将我们的研究成果扩展到噪声标签学习领域,以及相关研究方法应用到的连续学习大模型相关研究领域。
报告人简介:
马畅翼,2022年获香港中文大学博士学位,师从崔曙光教授。研究方向集中在相似度检索、相似度矩阵校正,和机器学习方法的研究。重点致力于处理有数据缺失时,设计高效精准的相似度矩阵校正方法。多项工作发表在国际知名会议和期刊上,包括SIGIR, WWW, ACL, CIKM, TIST等。
报告时间:2025年6月16日(星期一)上午8:30-9:30
报告地点:正新楼3楼人工智能学院报告厅
主办单位:吉林大学人工智能学院
