AIMC实验室研究成果被CCF A类会议ACMMM2022录用
信息学院人工智能与媒体计算实验室(AIMC Lab)关于视频检索否定式查询的研究被2022年国际多媒体大会(ACMMM)长文录用。ACMMM是中国计算机学会推荐的多媒体领域A类国际学术会议。论文共同一作是来自AIMC实验室的王子玥(2021级硕士生)和陈坳珠(2019级博士生)。该论文由李锡荣教授指导。
论文题目:
Learn to Understand Negation in Video Retrieval
论文作者:
王子玥*,陈坳珠*,胡帆,李锡荣
通讯作者:李锡荣
研究背景:
否定是一种常见的语言模式,它允许人类表达自己不想要的东西。自然地,我们希望视频检索系统能够支持带有否定的自然语言查询,比如查找"坐在地板上,但没在和狗玩耍的孩子"的视频。然而,目前最先进的基于深度学习的视频检索模型(如W2VV++, SEA, CLIP, CLIP4Clip等)缺乏理解否定式查询的能力。如示例图中前5行所示,上述模型的检索结果基本上忽略了示例查询中的否定词,错误地返回了“和狗玩耍的孩子”的视频。相比之下,本文给出的CLIP-bnl模型可以较好处理此类否定时查询(参见示例图最后一样)。
解决方案:
在本文中,我们首次提出了一种基于学习(learning based)的方法来尝试理解包含否定的自然语言查询。本文贡献主要体现在以下两个方面。首先,通过“引入否定”和“肯定与否定组合”这两种策略,我们对现有的视频描述数据集(MSR-VTT、VATEX)进行了改造,构造了两个新的测试查询集(negated query set和composed query set),在此基础上提出了一种新的测试协议,用于定量评估特定视频检索模型对于包含否定的查询的响应能力。其次,我们提出了一种名为否定学习(negation learning)的方法来训练一个对否定敏感的视频检索模型。其主要思想是首先通过部分地否定视频的原始描述,为特定的训练视频构造一个软性反向(soft negative) 描述,然后计算一种特定的带双向约束的三元组损失。再将该损失作为辅助项加到标准检索损失中,通过最小化组合损失优化文本-视频跨模态匹配网络。实验结果表明,用本文提出的否定学习对Contrastive Language-Image Pre-Training (CLIP)模型进行再训练,可以明显提高该模型处理否定查询的能力。此外,它在原始基准测试中的性能也得到了小幅提升。
论文信息:
Ziyue Wang, Aozhu Chen, Fan Hu, Xirong Li, Learn to Understand Negation in Video Retrieval, ACMMM 2022 (preprint https://arxiv.org/abs/2205.00132)
源代码:https://github.com/ruc-aimc-lab/nT2VR
作者简介
王子玥,中国人民大学信息学院2021级硕士生,导师为李锡荣教授,她的研究方向为视频检索和跨模态计算。
陈坳珠,中国人民大学信息学院2019级博士生,导师为李锡荣教授,她的研究方向为视频检索和跨模态计算。
李锡荣,中国人民大学数据工程与知识工程教育部重点实验室教授、博士生导师。主要研究方向为多媒体智能、视频检索、模式识别、AI辅助诊断等。在相关领域主要国际期刊和会议如TPAMI, TMM, TKDE, CSUR, Pattern Recognition, ACM TOMM, JBHI, ACMMM, CVPR, ICCV, MICCAI, AAAI, IJCAI, WWW, ACL等发表论文100 余篇,谷歌学术引用4000多次,H指数31。荣获CIVR'10最佳论文奖、TMM 2012年度期刊最佳论文奖、ACM SIGMM 2013年杰出博士论文奖、ACMMM'16 Grand Challenge Award、中国多媒体大会2017优秀论文奖等。担任多媒体领域重要会议MMM 2021 Program Co-Chair,国际期刊ACM TOMM、Multimedia Systems等编委。