信息学院计算机系赵素云副教授团队研究成果被AI顶级期刊T-PAMI录用

更新时间：2022-07-12 09:16:27 浏览量：

信息学院计算机系赵素云副教授团队关于类别分布不匹配场景下的主动学习方法的研究论文被AI顶级期刊IEEE Transactions on Pattern Analysis and Machine Intelligence (T-PAMI)录用。T-PAMI是人工智能、计算机视觉、模式识别等多个领域的顶级期刊，也是计算机学科影响因子最高的刊物之一（2022年影响因子24.314）。论文一作是来自数据仓库与商务智能实验室的2022级博士生杜盼，且所有作者均为我校师生。

论文题目：Contrastive Active Learning under Class Distribution Mismatch

论文作者：杜盼，陈卉，赵素云，柴树文，陈红，李翠平

通讯作者：赵素云

研究背景：

深度学习技术在监督学习领域取得了前所未有的突破，这很大程度上依赖于大量充足的标记数据。然而，在实际问题中，未标记数据是海量的，标记数据是稀少的；因标记代价巨大，获得大量的标记数据来训练深度模型不切实际。针对这一问题，主动学习（Active Learning, AL）被广泛的关注。主动学习从未标记数据中选择信息量最大的样本请专家标注，从而在少量的标注成本代价下更新分类模型，最大限度提升其泛化能力。

当前，传统的主动学习方法基于一个共同的假设：标记与未标记数据均来自相同的类别分布。然而，这一假设在实际应用中并不成立。例如，当从互联网上利用关键字“猫”和“狗”（目标类别）抓取图像时，可能会收集到大量不属于目标类别的图像，如“鹿”、“马”、“飞机”、“船”、“汽车”和“花”（未知类别）等等。本文主要针对这种“类别分布不匹配”场景，即未标记数据中含有标记数据的类别分布之外的样本，展开主动学习的拓展研究。

在类别分布不匹配的场景下，传统的主动学习算法会认为未知类别的样本具有较高的信息含量，从而易选择大量分布外的未标记样本向专家查询。即造成标注成本的浪费，又难以提升分类模型的性能。因此，面向类别分布不匹配场景的主动学习方法研究意义重大。

解决方案：

针对于类别分布不匹配场景，本工作提出一种综合考量语义信息和显著性信息的对比主动方法：ConAL。

（1）理论研究：ConAL首先在理论上对新场景下的主动学习误差重新定义为无效查询误差和有效查询误差。其中，有效查询误差与查询样本集中分布内的样本的信息量密切相关；而无效查询误差与查询样本中未知类别的样本数量紧密相关关。基于次理论发现，本文设计语义分数与显著性分数联合的主动学习查询策略来最小化泛化误差，从而提升模型在目标类别数据上的泛化能力，获得高性能分类模型。

（2）算法设计：为了分别降低无效查询误差和有效查询误差，ConAL基于对比学习技术分别探索样本之间的语义和显著性联系，进而选择目标类别的高信息含量的样本进行标注，提升模型性能。同时，本文采用严谨的推理分析证明ConAL算法的主动学习误差有严格上界。

（3）实验效果：ConAL在两个基准数据集，CIFAR10 和CIFAR100，和一个人工构造的包含5个的数据集的交叉数据集上取得了卓越的效果。同时ConAL的改进算法Semi-ConAL在真实世界的数据集上也取得了优异的性能。实验结果验证了ConAL算法的有效性。

本文是课题组ICCV 2021论文(Contrastive Coding for Active Learning under Class Distribution Mismatch )的期刊拓展版。相比会议版本，本文对主动学习误差的优化进行了更深入的分析，为语义信息和显著性信息的学习机制的有效性提供了理论支撑。更进一步地，本文在更加多样的实验设置（类别不匹配率）下评估了算法的性能。最后，本文提出了半监督的ConAL算法Semi-ConAL，从而利用有限的标记数据学习置信度更高的语义空间，并验证了算法在真实世界数据集上的有效性。

论文信息：

Pan Du, Hui Chen,Suyun Zhao,Shuwen Chai,Hong Chen,Cuiping Li. Contrastive Active Learning under Class Distribution Mismatch. IEEE Transactions on Pattern Analysis and Machine Intelligence (T-PAMI),2022, https://ieeexplore.ieee.org/document/9816025.

作者简介：

杜盼，中国人民大学信息学院2022级博士生，大数据科学与工程专业，主要研究方向包括主动学习、对比学习和不确定信息处理等。

赵素云，中国人民大学信息学院计算机系副教授。目前主要研究方向是机器学习、不确定信息处理、弱监督学习等。主持国家自然科学基金项目两项，参与国家自然科学基金重点项目2项。现已发表文章40余篇，其中包括TPAMI，TKDE，TFS，T-Cybern, ICCV, ECAI, INS, PR, JCST等多篇。