信息学院金琴教授团队1篇长文被ICCV 2023录用

更新时间：2023-07-28 09:32:24 浏览量：

近日，中国人民大学信息学院金琴教授团队AIM3多媒体计算实验室1篇长文被国际计算机视觉大会ICCV 2023录用。国际计算机视觉大会（International Conferenceon Computer Vision，简称ICCV）是中国计算机学会（CCF）推荐的A类国际学术会议，每两年召开一次，今年是第19届会议。

论文第一作者是来自AIM3多媒体计算实验室的2019级博士生胡安文。

论文介绍

Explore and Tell: Embodied Visual Captioning in 3D Environments

作者：胡安文，陈师哲，张良，金琴

通讯作者：金琴

论文概述：

视觉描述模型已经取得了不错的效果。为了充分描述一个场景，他们需要输入一个拍摄角度较好且捕捉到大部分信息的图片或视频。然而，在现实场景中，一张图或一段视频可能不能完美得包含场景中所有的关键信息。在这种情况下，被动接受输入的视觉描述模型就不能提供有效的场景描述。为了克服这样的限制，我们提出使得视觉描述模型具备自主探索环境的能力，设计了一个新颖且有挑战性的任务——“Embodied Captioning”（具身视觉描述）。具体来说，从一个3D场景的随机一个视角点出发，智能体需要在环境中自主探索以收集不同视角下拍摄的视觉信息，最后生成一个详细的段落描述来提到场景内所有的物体、属性以及位置关系，如图1。

图1：具身视觉描述示例

为了支持这个任务，我们基于Kubric模拟器构建了一个数据集ET-Cap，其包含10k个多样化的3D场景，每个场景由多个物体组成，且由人工标注了良好视角标注以及段落场景描述。

针对该任务，我们提出了一个级联式的具身视觉描述模型CaBOT，如图2。

图2：CaBOT示意图

CaBOT由一个探索器和一个描述器组成，探索器根据历史视觉观测决定智能体下一步的移动动作，描述器则根据所有观测到的视觉信息生成场景描述。充分的实验证明我们提出的模型优于其它精心设计的基准方法。我们将会开源数据集、代码以及模型来促进具身视觉描述的发展。

作者简介

胡安文，中国人民大学信息学院2019级博士，大数据科学与工程专业，主要研究方向是图像描述生成，多模态预训练。2023年6月博士毕业，就职阿里达摩院。

金琴，中国中国人民大学信息学院计算机系教授，多媒体计算实验室(AIM3)负责人。主要研究领域为多媒体智能计算、人机交互。