我院多媒体实验室金琴老师团队荣获国际会议ACM Multimedia 2017三项最高奖

发布时间:2017-10-26 10:03 浏览量:446新闻类型: 学院新闻

10月26日,在硅谷举办的计算机领域顶级国际会议ACM Multimedia 2017上,我院多媒体计算实验室金琴老师团队荣获Best Grand Challenge Performance Award和Best Grand Challenge Paper Award,并斩获国际听视觉情感计算挑战赛(Audio-Visual Emotion Challenge AVEC 2017)冠军。

由工业界组织挑战赛是ACM Multimedia的传统项目,工业界将针对多媒体领域未来3至5年的创新性研究方向和潜在技术突破设置一系列研究课题,在全球范围内征集并评选最佳解决方案,被评价为多媒体领域“最具影响力的竞赛”。今年的技术挑战赛包括Social Media Prediction、MSR video to language等3个赛题。

金琴老师团队参加的MSR video to language(MSR-VTT)赛题自2016年来已连续举办两届,其任务为自动地为短视频生成自然语言视频内容描述。今年共有全球57支队伍注册参加。金琴老师团队在去年MSR-VTT比赛中已取得第一名的佳绩,在此基础上,今年该团队继续对视频内容描述任务深入攻关,创新地提出了基于隐含主题指导的视频内容描述生成模型,并通过排序和融合等方法综合利用多个不同视频内容描述模型,在MSR-VTT上继续领先,取得了主观人工评测和客观性能评测的双冠军,荣获Best Performance Award。

除了优异的比赛成绩,在该团队发表的论文“Knowing yourself: improving video caption via in-depth recap”中,更是对VTT任务的现状进行了完整的回顾和分析,为今后该任务的发展和需要解决的重点问题提供了方向,该论文获得了Best Grand Challenge Paper Award。

 

此外,该团队荣获国际听视觉情感计算挑战赛(Audio-Visual Emotion Challenge AVEC 2017)冠军!

国际听视觉情感计算挑战赛AVEC由伦敦帝国理工大学、诺丁汉大学、美国南加州大学和德国帕绍大学等联合组织,是情感计算领域公认的顶级国际竞赛,现已连续举办七届。该挑战赛的任务是在自然场景下根据人的行为表现连续地预测三种不同维度的情感状态。该比赛为多模态情感识别提供了一个统一的测试平台,以推进情感计算在现实场景下的应用。

金琴老师团队在情感识别的两个重要模块——多模态情感特征表示和连续情感识别模型进行了创新性地改进。在情感特征构建方面,该团队提取了视觉、语音和文本等多模态情感信息,并创新地考虑对话双方对彼此情感状态的影响,从而得到更加有情感区分力的特征;在情感识别模型方面,该团队使用长短时记忆递归神经网络对连续的时序信号进行建模,通过对不同情感维度的多任务学习机制进一步提高了情感识别性能。

本次竞赛学生成员包括博士生陈师哲、赵金明和硕士生王帅。经过不断的技术和经验积累,在今年比赛中,该团队取得了第一名的好成绩,展现了该团队扎实稳健的学术作风和在情感识别领域领先的科研水平。

据悉,ACM Multimedia是多媒体领域最具影响力的国际会议,今年正值ACM Multimedia 25周年庆典,吸引了全球超过700余人参会。