信息学院计算机系师生论文被计算机视觉领域顶会ICCV2023录用

更新时间：2023-09-01 10:45:09 浏览量：

近日，信息学院计算机系赵素云副教授团队论文被2023年国际计算机视觉大会ICCV（International Conference on Computer Vision）录用。ICCV作为计算机领域世界顶级的学术会议之一，是中国计算机学会推荐的人工智能方向A类国际学术会议，本届会议录用率为26.8%。论文一作是来自DW&BI数据仓库与商务智能实验室的2022级博士生杜盼，所有作者均为我校师生。

论文题目：Semi-Supervised Learning via Weight-aware Distillation under Class Distribution Mismatch

论文作者：杜盼，赵素云，盛子森，陈红，李翠平

通讯作者：赵素云

研究背景：

在面向类别分布不匹配场景的半监督学习中，我们仅能够访问有限数量的已标记样本和大量的无标记样本，其中，已标记样本属于目标类别，而未标记样本涵盖了目标类别和未知类别，正如图1所示。在这种背景下，训练高性能的面向目标类别样本的分类器面临两个主要挑战。首先，缺乏针对类别分布不匹配场景下半监督学习误差的理论支撑，这是一个需要解决的关键问题。其次，现有方法往往依赖于权重过滤未知类别样本的方式，并且与目标分类器紧密耦合。这导致在有限已标记样本的目标分类器遭受未知类别样本干扰后，随后更新的分类器容易允许更多未知类别样本入侵，最终导致分类器产生偏差。与此同时，采用硬权重也难免会导致一些有益于训练的目标类别样本被忽略。因此，在这一背景下，深入分析半监督学习误差，并设计一种能够既高效地利用目标类别样本，又能够最大程度地抵御未知类别样本干扰的半监督学习算法，显得尤为重要。

图1:类别分布不匹配场景示意图。

解决方案：

（1）理论研究：经过严谨的数学推导，本文深入揭示了类别分布不匹配情境下的半监督学习误差由伪标签误差和入侵误差构成，这两类误差共同决定了半监督学习的总体风险上限。

（2）算法设计：为了降低半监督学习误差，我们提出了一种全新的基于权重感知蒸馏的半监督学习方法（WAD），如图2所示。WAD摒弃了过于依赖目标分类器性能的权重生成方法，而是以权重为桥梁，有选择性地将有益于目标任务的知识从无监督的对比表征中迁移到目标分类器。值得注意的是，在理论角度上，本文验证了WAD的总体风险上限，为该方法的有效性提供了坚实支撑。

图2:基于权重感知蒸馏的半监督学习方法（WAD）框架图。

实验效果：

（1）Accuracy对比：在图像识别领域的CIFAR10、CIFAR100 和由五个数据集组成的人工交叉数据集上的实验结果表明，WAD 能够有效地利用目标类别的样本，同时避免未知类别样本的干扰，从而提升目标分类器的性能。

（2）可视化实验：在CIFAR10 的可视化结果，进一步证明了WAD能够对目标类别样本赋予高质量的伪标签（绿色和蓝色区域），同时WAD能够对未知类别的样本分配较小的权重，从而避免其损害目标分类器的性能。

作者简介：

杜盼，中国人民大学信息学院2022级博士，大数据科学与工程专业，主要研究方向是弱监督学习，开放环境下的机器学习及其在图像识别中的应用等。

赵素云，中国人民大学信息学院计算机系副教授。目前主要研究方向是机器学习、弱监督学习及其在图像识别中的应用。主持国家自然科学基金青年项目1项，国自科面上项目2项，参与国家自然科学基金重点项目2项等。现已发表文章50余篇，其中包括TPAMI，CVPR，ICCV，IJCAI，ICDE，AAAI，TKDE，TFS，TCYB，ECAI，Information Sciences，Pattern recognition等多篇。