AAAI 2025(The 39th Annual AAAI Conference on Artificial Intelligence Conference)将于2025年2月25日至3月4日在美国宾夕法尼亚州费城召开。AAAI是人工智能领域的顶级国际会议之一,涵盖的研究方向包括但不限于机器学习、自然语言处理、计算机视觉、机器人学、智能系统、规划与推理、多智能体系统等。
论文题目:Multimodal Hypothetical Summary for Retrieval-based Multi-image Question Answering
第一作者:李佩泽(2021级博士研究生)
收录会议:AAAI 2025(CCF-A类)
指导教师:王岩
论文概述:基于检索的多图像问答 (QA) 任务涉及检索多个与问题相关的图像并合成这些图像以生成答案。传统的“检索然后回答”流程经常遭受级联错误,因为 QA 的训练目标未能优化检索阶段。为了解决这个问题,我们提出了一种新颖的方法,可以有效地将检索到的信息引入和引用到 QA 中。给定要检索的图像集,我们采用多模态大语言模型(视觉视角)和大语言模型(文本视角)来获得问题形式和描述形式的多模态假设综合(MHyS)。通过结合视觉和文本视角,MHyS 可以更具体地捕获图像内容并在检索中替换真实图像,从而通过转换为文本到文本的检索消除了模态差距并有助于改进检索。为了更有利地将检索与 QA 结合起来,我们采用对比学习将查询(问题)与 MHyS 对齐。此外,我们提出了一种由粗到细的策略来计算句子级和单词级的相似度分数,以进一步增强检索并过滤掉不相关的细节。我们的方法在 RETVQA 上比最先进的方法实现了 3.7% 的绝对改进,比 CLIP 实现了 14.5% 的改进。全面的实验和详细的消融研究证明了我们方法的优越性。