信息学院金琴教授团队1篇长文被WWW 2023录用

更新时间:2023-04-09 15:45:25 浏览量:

近日,信息学院金琴教授团队AIM3多媒体计算实验室1篇长文《CapEnrich: Enriching Caption Semantics for Web Images via Cross-modal Pre-trained Knowledge》被国际万维网会议WWW录用。WWW(Proceedings of the ACM Web Conference 2023,国际万维网会议)是中国计算机学会(CCF)推荐的A类国际学术会议。本届会议的论文录用率为19.2%。

论文第一作者是来自AIM3多媒体计算实验室的2020级硕士生姚林丽,所有作者均为我校师生。


论文题目:CapEnrich: Enriching Caption Semantics for Web Images via Cross-modal Pre-trained Knowledge

作者:姚林丽,陈玮婧,金琴

通讯作者:金琴

论文概述:

自动为互联网上的大量无标签图像生成文本描述,可以有效辅助多模态检索、推荐等实际应用。然而,现有模型普遍存在生成文本过于“笼统(over-generic)”的问题,即它们倾向于为不同的图像生成雷同甚至重复的简单句子。最先进的基于视觉-语言预训练的模型也无法避免该问题,例如上图中,VLP模型为6张图片生成相同的句子“a man riding a wave on a surfboard in the ocean”。考虑到互联网上图像的多样性,这些笼统的文本不能提供充分的语义信息。本文的目标是自动为图像生成包含更多视觉细节的文本。

基于先进的跨模态预训练(VLP)模型,我们提出了一个即插即用的框架CapEnrich,来利用VLP模型在预训练阶段学习到的丰富的视觉-文本概念对齐知识,自动为笼统的文本补充更多细节,无需人工标注富含细节的文本。具体地,我们首先提出了一个自动数据构造策略,来获得“先整体概括,再细节补充”的新格式文本,用于后续训练。然后我们结合提示学习(prompt learning),设计了手工提示模板和可学提示向量,来激励预训练模型生成更加细节的描述内容。在提示向量训练过程中,我们固定预训练模型参数、只更新提示向量,来保证两个优势:1)尽可能保留预训练模型的原有参数空间和预训练知识;2)轻量的参数学习,对低数据量的训练场景友好。在不同的预训练模型和数据集上的实验,证明了我们方法的通用性和有效性。

作者简介:

姚林丽,中国人民大学信息学院2020级硕士,计算机应用技术专业,主要研究方向是视觉语言理解与生成。

金琴,中国中国人民大学信息学院计算机系教授,多媒体计算实验室(AIM3)负责人。主要研究领域为多媒体智能计算、人机交互。