徐昊教授指导的2021级硕士研究生赵久峰同学的论文Weak-PMLC: A Large-Scale Framework for Multi-Label Policy Classification Based on Extremely Weak Supervision近日被 Information Processing & Management(IPM)杂志接收。Information Processing & Management是Elsevier出版社旗下的中科院一区TOP期刊(CCF-B),SCI IF(2022)= 7.466。本篇论文的通讯作者为徐昊教授,其他作者包括人工智能学院的2020级博士研究生宋瑞同学等。
论文题目:Weak-PMLC: A Large-Scale Framework for Multi-Label Policy Classification Based on Extremely Weak Supervision
第一作者:赵久峰
指导教师:徐昊
收录期刊:Information Processing & Management(IPM)
期刊级别:中科院一区,CCF-B
论文概述:
随着电子政务的发展,我国多个地方政府都在发展基于互联网的政务公开平台,这些在线平台需要对政策进行自动分类。当前的政策分类方法通常是基于监督模型的,需要大量的标注数据,这在实践中可能很昂贵且难以获得。为了减轻人类专家注释大量政策的负担,我们提出了一个基于极弱监督的多标签政策分类的大规模框架(Weak-PMLC),它不依赖于任何带标签的文档,只使用每个类别的标签名称。具体来说,我们首先在给定数据集上预训练语言模型(LM),以将 LM 从通用扩展到特定领域。然后,我们利用特定领域的 LM 生成与标签名称语义相关的种子词。最后,根据类别相关的种子词,我们为大量未标注的政策生成高质量的伪标签,作为高性能监督模型的训练数据。
为了验证我们提出的方法的有效性,我们创建了两个新的人工标记数据集,分别包含大约 56k 和 37k 政策。我们还定义了 59 个可以涵盖所有政策主题的标签名称。在新构建的数据集上,Weak-PMLC的性能明显优于最先进的弱监督模型,同时不逊于一般的全监督分类算法。在公开数据集上,Weak-PMLC也能够取得与需要大量人力的弱监督方法相当甚至更好的性能。