信息学院金琴教授团队3篇长文被AAAI 2023录用

更新时间:2023-04-09 15:50:20 浏览量:

近日,信息学院金琴教授团队AIM3多媒体计算验室3篇长文《Token Mixing: Parameter-Efficient Transfer Learning from Image-Language to Video-Language》、《Accommodating Audio Modality in CLIP for Multimodal Processing》、《MPMQA: Multimodal Question Answering on Product Manuals》被人工智能领域顶级会议AAAI录用。AAAI(AAAI Conferenceon Artificial Intelligence,人工智能会议)是由人工智能促进协会举办的国际人工智能领域顶级会议之一,汇集了全球最顶尖的人工智能领域专家学者,一直是人工智能界的研究风向标,在学术界久负盛名。AAAI是中国计算机学会(CCF)推荐的A类国际学术会议,本届会议的论文录用率为19.6%。

3篇论文的第一作者分别是来自AIM3多媒体计算实验室的2021级硕士生刘玉琪、2020级硕士生阮璐丹和2020级博士生张良。


论文题目:Token Mixing: Parameter-Efficient Transfer Learning from Image-Language to Video-Language

作者:刘玉琪,徐鲁辉(腾讯),熊鹏飞(腾讯),金琴

通讯作者:金琴

论文概述:

将大规模预训练图像语言模型应用于视频语言任务面临两个挑战。一个是如何有效地将知识从静态图像转移到动态视频,另一个是如何应对由于模型规模不断增长而导致Fully Fine-tune的高昂成本。现有的尝试实现parameter-efficient的图像语言到视频语言迁移学习的工作可以分为两种类型:1)在2D Vision Transformer(ViT)之后附加一系列时间转换器块,2)将时间模块插入到ViT架构。虽然这两类方法只需要对新添加的组件进行微调,但仍有许多参数需要更新,并且它们仅在单个视频语言任务上得到验证。在这项工作中,基于我们对现有方法中不同时间建模组件的核心思想的分析,我们提出了一种Token Mix策略以允许跨帧交互,从而能够从预训练的图像语言模型转移到视频语言模型。通过从输入视频样本中选择和混合键集和值集来完成Token Mix。由于Token Mix不需要添加任何组件或模块,我们可以部分微调预训练的图像语言模型以实现parameter-efficient。我们进行了大量实验,将我们提出的Token Mix方法与其他parameter-efficient的迁移学习方法进行比较。我们的Token Mix方法在video understanding task和video generation task上都优于其他方法。此外,我们的方法在多个视频语言任务上取得了新的记录。

论文题目:Accommodating Audio Modality in CLIP for Multimodal Processing

作者:阮璐丹,胡安文,宋宇晴,张良,郑思鹏,金琴

通讯作者:金琴

论文概述:

本文工作旨在利用已有的视觉-文本预训练模型(CLIP),将其扩展到音频模态,用来加强下游视频理解的相关任务(视频检索、视频文本描述)。传统的音频预训练工作由于处理音频时间过短、提取音频信息单一,无法直接引入进行跨模态建模。针对CLIP的模型特点和训练特点,本文采用CLIP的图像编码器作为音频编码器,首先转化音频为语谱图序列,输入编码器得到音频的序列特征。在音频编码器的训练上,我们同时采用模态间和模态内部的对比学习,对齐音频模态与其他模态,提升编码器音频信息抽取能力。此外,通用视频中的音频同时包含语义信息和非语义信息,我们在音频编码器最后引入[VB],[NB]两个token,用语义信息为主的视频数据集Howto100M、非语义信息为主的视频数据集Audioset分别训练。我们的方法在多个数据集的视频检索、视频描述生成中都获取了显著提升,超过了原来的SOTA。

论文题目:MPMQA: Multimodal Question Answering on Product Manuals

作者:张良,胡安文,张静(三星),胡硕(三星),金琴

通讯作者:金琴

论文概述:

视觉信息对于在产品说明书的理解起十分关键的作用。现有的产品说明书问题回答(PMQA)任务只考虑了说明书中的文本内容,忽略了诸如产品图片和图例等视觉信息。该工作中我们提出了多模态产品说明书问题回答任务(MPMQA)。对于每个问题,MPMQA要求模型处理多模态说明书内容,并给出多模态的回答。我们通过人工标注构建了PM209数据集以支持MPMQA任务,PM209数据集由209份产品说明书构成,涵盖27种常见电子产品品牌。PM209将说明书的每一页划分为6种语义区域,并根据内容标注了共计22021个问题-回答对。每个问题的回答由文本回答(自然语言句子)和视觉回答(相关视觉区域)构成。由于说明书通常由多个页面构成,而问题往往只与部分页有关,MPMQA任务可以分为两个子任务:检索问题相关页和生成多模态回答。我们基于多任务学习,提出了可以完成上述两个子任务的统一URA模型,实验表明统一的URA模型能够与多个单任务模型表现相当。

作者简介:

刘玉琪,中国人民大学信息学院2021级硕士,计算机应用技术专业,主要研究方向是多模态学习,视频文本检索等。

阮璐丹,中国人民大学信息学院2020级硕士,计算机应用技术专业,主要研究方向是多模态预训练,多模态生成等。

张良,中国人民大学信息学院2020级博士,大数据科学与工程专业,主要研究方向是多模态和多语言理解。

金琴,中国中国人民大学信息学院计算机系教授,多媒体计算实验室(AIM3)负责人。主要研究领域为多媒体智能计算、人机交互。