人工智能学院2023级博士研究生郭思源的论文被KDD 2025接收

发布时间:2025-05-18 点击:

人工智能学院2023级博士研究生郭思源的论文《Optimizing Case-Based Reasoning System for Functional Test Script Generation with Large Language Models》被CCF-A类会议KDD 2025接收。KDD(Knowledge Discovery and Data Mining)是数据挖掘和知识发现领域最具影响力的会议之一。本论文由吉林大学陈贺昌、常毅老师和伦敦大学学院汪军老师共同指导,与华为数通合作完成。


论文题目:Optimizing Case-Based Reasoning System for Functional Test Script Generation with Large Language Models

第一作者:郭思源

收录会议:KDD’2025 ADS Track(CCF A)

通讯作者:陈贺昌、常毅、汪军

论文概述:

在本研究中,我们探索了大型语言模型在功能测试脚本生成方面的潜力,这一过程需要理解目标软件中动态演化的代码结构。为实现这一目标,我们提出了一种基于案例的推理系统,采用4R循环(即检索、重用、修订和保留)机制,通过维护并利用包含测试意图描述及其对应测试脚本的案例库,辅助大语言模型生成测试脚本。为了进一步提升用户体验,我们提出了了一种面向基于案例的推理系统的优化方法Re4,该方法包括基于重排序的检索微调和基于强化学习的重用微调。具体而言,我们首先识别在语义和脚本相似性方面高度一致的正样本,为检索器模型微调提供可靠的伪标签,从而避免高昂的人工标注成本。随后,我们采用有监督微调,并引入额外的强化学习微调阶段,使大语言模型更好地适应实际生产场景,确保对检索案例的真实重用。在华为数通的两个产品开发单元上的大量实验结果表明,所提出的CBR+Re4方法具有显著优势。值得注意的是,我们还验证了Re4方法有助于缓解大语言模型在生成过程中出现的复读问题。