2021级博士研究生程博论文被AAAI'2023接收

发布时间:2022-11-20 点击:

人工智能学院常毅教授指导的2021级博士研究生程博同学的论文“TC-DWA: Text Clustering with Dual Word-level Augmentation”被国际会议AAAI 2023(CCF A类)接收。本篇论文与吉林大学计算机科学与技术学院李熙铭副教授合作完成。

会议简介:AAAI(The National Conference on Artificial Intelligence)是由国际先进人工智能协会(Association for the Advance of Artificial Intelligence)主办的年会,也是人工智能顶级国际会议。

会议类别:CCF A类会议

第一作者:程博

论文题目:TC-DWA: Text Clustering with Dual Word-level Augmentation

论文概述:预训练语言模型,例如:ELMo和BERT,由于其可以输出单词的强语境化嵌入特征,进一步提高了大量NLP任务的性能。受其启发,本文旨在对预训练模型进行微调,以有效地处理文本聚类任务,即机器学习中的一个经典和基本的挑战。因此,我们提出了一种新颖的基于BERT的方法,即双词级增强文本聚类(TC-DWA)。具体地说,我们制定了一个自训练目标,并用双词级增强技术增强它。避免了现有文本增强技术,即单词插入、单词替换和反向翻译可能存在的问题:产生有噪声的增强样本,并且代价昂贵,可能会阻碍文本聚类任务的进一步性能提高。为了评估TC-DWA的有效性,我们在几个文本数据集上进行了大量的实验。结果表明,TC-DWA的性能始终优于最先进的基线方法。