多媒体计算实验室 -学术科研 - 教师科研

多媒体计算实验室

1、实验室团队简介

我们生活在多模态的世界中，通过视觉、听觉、语言等不同模态进行学习、思考和表达。因此对于人工智能而言，深度理解我们生活的多模态世界是必不可少的能力。信息学院AI·M³实验室的主要研究方向就是对视觉，语言和语音等多媒体内容的深度语义理解，其中M³ 代表了深度理解的3个不同维度：

Multi-Level (多层次)：从易到难的不同层次学习。例如，从识别图像中的物体到构建图像整体的场景图，再到生成自然语言描述图片内容等。

Multi-Aspect (多方位)：从客观、主观等多方位理解世界。客观理解是人工智能的IQ，而主观理解则是人工智能的EQ，让人工智能得以理解人类的情感从而进行更好的交互。

Multi-Modal (多模态)：融合语音、文本、图像、视频等不同模态信息的全面理解。

实验室主页：https://www.jin-qin.com/AIM3-Lab.html

实验室知乎专栏：https://www.zhihu.com/column/c_1129360636513161216

2、科研方向及成果

AI·M³多媒体计算实验室由金琴教授带领，目前团队包括7名博士生，15名硕士生和若干名有志于科研的本科生。金琴教授于清华大学计算机科学与技术系获得学士、硕士学位，美国卡内基梅隆大学计算机学院语言技术系获得博士学位。实验室主要研究领域包括多媒体智能计算、人机交互等。在视觉描述生成、多媒体情感计算、跨模态交互等研究与应用中取得了杰出成就。

AI·M³研究团队在多项国际赛事上取得了优异的成绩，包括：蝉联2018-2020年CVPR ActivityNet Dense Video Captioning Task冠军；蝉联2017-2019年ACM Multimedia Audio-Visual Emotion Challenge (AVEC) 语音视觉情感识别挑战赛冠军；蝉联2017-2021年TRECVID视频描述生成（VTT）冠军；2019年之江杯全球人工智能大赛视频内容描述生成冠军等。相关研究工作发表于国际顶级会议，包括CVPR, ACL, ACM Multimedia, AAAI, IJCAI等。金琴教授指导的博士生陈师哲荣获百度全球奖学金（全球10位）。

师资介绍

金琴