AIMC课题组研究成果被计算机视觉顶会ICCV2023录用
信息学院人工智能与媒体计算课题组(AIMC Lab)关于图像匹配的最新研究成果被2023年国际计算机视觉大会(ICCV)录用。ICCV是中国计算机学会推荐的人工智能方向A类国际学术会议。论文第一作者是我院2021级硕士生刘家真。
论文题目:Geometrized Transformer for Self-Supervised Homography Estimation
论文作者:刘家真,李锡荣
通讯作者:李锡荣
论文概述:
本文探讨了计算机视觉的一个基础任务:单应性估计 (homography estimation)。该任务旨在求解同一场景不同视角成像平面之间的单应变换关系,在图像配准、图像拼接、相机位姿估计、视觉SLAM等多种应用中起着关键作用。传统的基于关键点检测与匹配的方法计算效率高,但关键点在低纹理区域难以被有效检测,极大限制了方法适用范围。当前以LoFTR为代表的无检测器检测(detector-free)方法直接将整图所有像素点作为特征点进行密集匹配,从而回避关键点检测问题,扩大了方法适用范围。为了降低无关区域对于特征匹配的干扰,LoFTR等方法需要借助Transformer自注意力网络对整图像素点进行特征交互与聚合。而为了计算可行,上述方法只能使用性能受限的线性Transformer,存在注意力扩散区域欠准确、易被无关区域干扰等问题。为了解决这个问题,本文提出Geometrized Transformer (GeoFormer)。GeoFormer巧妙地使用经典的RANSAC几何方法大幅缩小参与注意力计算的图像区域,使得我们可以使用标准的二次Transformer实现稀疏自注意力机制 (sparse self-attention)和聚焦跨注意力机制(focused cross-attention)。在自然图像、过度编辑图像、眼底彩照等多个真实世界数据集上开展的大量实验验证了GeoFormer的有效性。
源代码: https://github.com/ruc-aimc-lab/GeoFormer
本项研究得到了国家高水平医院临床研究资助(2022-PUMCH-C-61)、国家自然科学基金(62172420)、2022腾讯下一代广告系统犀牛鸟重点研究计划以及中国人民大学公共计算云的支持。
论文信息: Jiazhen Liu, Xirong Li. Geometrized Transformer for Self-Supervised Homography Estimation. ICCV 2023
作者简介:
刘家真,中国人民大学信息学院2021级硕士生,导师为李锡荣教授,他的研究课题为图像匹配和多模态大模型。
李锡荣,中国人民大学数据工程与知识工程教育部重点实验室教授、博导,信息学院人工智能与媒体计算课题组负责人。主要研究兴趣包括多媒体智能、计算机视觉、模式识别、AI辅助诊断等,在相关领域重要国际刊物上累计发表学术论文百余篇,谷歌学术引用5000余次。曾任国际多媒体建模会议Multimedia Modeling 2021 Program Co-Chair。目前担任ACM TOMM、Multimedia Systems、IET Computer Vision等多个国际SCI期刊的编委。