AIMC实验室研究成果被CCF A类会议ACMMM2022录用

更新时间：2022-09-14 16:07:58 浏览量：

信息学院人工智能与媒体计算实验室（AIMC Lab）关于视频检索否定式查询的研究被2022年国际多媒体大会（ACMMM）长文录用。ACMMM是中国计算机学会推荐的多媒体领域A类国际学术会议。论文共同一作是来自AIMC实验室的王子玥（2021级硕士生）和陈坳珠（2019级博士生）。该论文由李锡荣教授指导。

论文题目：

Learn to Understand Negation in Video Retrieval

论文作者：

王子玥*，陈坳珠*，胡帆，李锡荣

通讯作者：李锡荣

研究背景：

否定是一种常见的语言模式，它允许人类表达自己不想要的东西。自然地，我们希望视频检索系统能够支持带有否定的自然语言查询，比如查找"坐在地板上，但没在和狗玩耍的孩子"的视频。然而，目前最先进的基于深度学习的视频检索模型（如W2VV++, SEA, CLIP, CLIP4Clip等）缺乏理解否定式查询的能力。如示例图中前5行所示，上述模型的检索结果基本上忽略了示例查询中的否定词，错误地返回了“和狗玩耍的孩子”的视频。相比之下，本文给出的CLIP-bnl模型可以较好处理此类否定时查询（参见示例图最后一样）。

解决方案：

在本文中，我们首次提出了一种基于学习（learning based）的方法来尝试理解包含否定的自然语言查询。本文贡献主要体现在以下两个方面。首先，通过“引入否定”和“肯定与否定组合”这两种策略，我们对现有的视频描述数据集（MSR-VTT、VATEX）进行了改造，构造了两个新的测试查询集(negated query set和composed query set)，在此基础上提出了一种新的测试协议，用于定量评估特定视频检索模型对于包含否定的查询的响应能力。其次，我们提出了一种名为否定学习(negation learning)的方法来训练一个对否定敏感的视频检索模型。其主要思想是首先通过部分地否定视频的原始描述，为特定的训练视频构造一个软性反向(soft negative) 描述，然后计算一种特定的带双向约束的三元组损失。再将该损失作为辅助项加到标准检索损失中，通过最小化组合损失优化文本-视频跨模态匹配网络。实验结果表明，用本文提出的否定学习对Contrastive Language-Image Pre-Training (CLIP)模型进行再训练，可以明显提高该模型处理否定查询的能力。此外，它在原始基准测试中的性能也得到了小幅提升。

论文信息:

Ziyue Wang, Aozhu Chen, Fan Hu, Xirong Li, Learn to Understand Negation in Video Retrieval, ACMMM 2022 (preprint https://arxiv.org/abs/2205.00132)

源代码：https://github.com/ruc-aimc-lab/nT2VR

作者简介

王子玥，中国人民大学信息学院2021级硕士生，导师为李锡荣教授，她的研究方向为视频检索和跨模态计算。

陈坳珠，中国人民大学信息学院2019级博士生，导师为李锡荣教授，她的研究方向为视频检索和跨模态计算。

李锡荣，中国人民大学数据工程与知识工程教育部重点实验室教授、博士生导师。主要研究方向为多媒体智能、视频检索、模式识别、AI辅助诊断等。在相关领域主要国际期刊和会议如TPAMI, TMM, TKDE, CSUR, Pattern Recognition, ACM TOMM, JBHI, ACMMM, CVPR, ICCV, MICCAI, AAAI, IJCAI, WWW, ACL等发表论文100 余篇，谷歌学术引用4000多次，H指数31。荣获CIVR'10最佳论文奖、TMM 2012年度期刊最佳论文奖、ACM SIGMM 2013年杰出博士论文奖、ACMMM'16 Grand Challenge Award、中国多媒体大会2017优秀论文奖等。担任多媒体领域重要会议MMM 2021 Program Co-Chair，国际期刊ACM TOMM、Multimedia Systems等编委。