金琴教授团队1篇长文被人工智能顶会AAAI 2022录用

更新时间:2021-12-10 17:49:39 浏览量:

近日,信息学院金琴教授AIM³实验室的一篇长文被AAAI会议接收。AAAI会议(AAAI Conference on Artificial Intelligence)是人工智能领域的顶会,CCF-A类推荐会议,每年举办一次。AAAI 2022收到的投稿量创历史新高,达到了9251篇,录用率仅为15%。 

论文介绍

标题:Image Difference Captioning with Pre-training and Contrastive Learning

作者:姚林丽,王维莹,金琴

通讯作者:金琴

论文概述:

图像差异描述生成是一个富有挑战性的任务,它的目标是对比两张相似图片、捕捉它们之间的视觉差异、然后用自然语言将这些差异描述出来。这个任务在现实生活中有广泛的应用,比如协助鸟类学家区分并记录相似的鸟类品种,自动检测和描述监控视频中的场景变化等等。该任务主要有两方面的挑战:一方面,相似图片之间的差异是非常细粒度的,捕捉并描述出这种细粒度差异,需要建立(图片1,图片2,文本)三者之间更强的联系;另一方面,该任务所需的三元组数据,人工标注的成本非常高,导致已有数据集的规模都较小。

针对第一个挑战,我们为该任务提出了一种预训练-微调的新范式,并结合对比学习的思路设计了三个自监督任务,在细粒度层面对视觉和语言的特征表示进行了对齐。针对第二个挑战,我们额外使用了来自其他任务的同域数据,来缓解标注数据较少的问题。我们的框架能灵活地处理这些数据形式不一的额外数据。实验表明,我们的模型在CLEVR-Change和Birds-to-words两个数据集上都取得了最佳效果。