中国人民大学首次以第一单位获评ACM SIGMOD研究亮点奖!祝贺范举教授团队

更新时间:2024-06-18 09:28:10 浏览量:

近日,信息学院范举教授团队的论文Unicorn: 支持数据集成中匹配任务的统一多任务模型》Unicorn: A Unified Multi-tasking Model for Supporting Matching Tasks in Data Integration获得国际计算机学会数据管理专业委员会(ACM SIGMOD2024年研究亮点奖(Research Highlight Award该论文的第一作者为信息学院2020级硕士生涂荐泓指导教师为信息学院范举教授、杜小勇教授。中国人民大学首次以第一单位获得该奖项,也是本年度唯一获得该奖项的中国机构。该论文也是中国人民大学与北京市大数据中心联合研究的成果,基于成果研发的相关工具集已在北京市真实场景落地。

ACM SIGMOD研究亮点奖设立于2016年,旨在表彰体现核心数据库与数据管理研究的成果其遴选标准是涉及重要问题,并且是解决该问题的一个明确里程碑,有潜力产生重大影响力的研究。其遴选范围是2023数据库与数据管理领域发表的所有顶级会议及期刊论文(包括SIGMODVLDBPODS等),每年10左右论文获得该奖项。中国人民大学是第三所获得此奖项的境内高校,前两所的境内高校分别是清华大学和上海交通大学。

获奖论文介绍

数据融合(Data Integration)是数据管理领域长期研究的基础性问题,在大数据分析、知识图谱构建、人工智能训练数据准备等方面有着广泛应用。数据匹配是数据融合中最具挑战的核心问题,旨在判断多源异构数据是否在语义上等价。在过去的40多年中,不同的研究领域(如数据库、人工智能、语义万维网、数据挖掘等)从不同的角度对数据匹配进行广泛研究,提出了模式匹配、实体匹配、本体对齐、语义标注等一系列任务。然而,现有研究主要针对单个数据匹配任务或单个数据集设计专用模型,缺乏对不同类型数据匹配任务的通用解决方案。本文提出同时支持多种匹配任务的统一模型Unicorn,其优势在于将不同数据匹配任务统一到一个端到端的模型,并且多任务学习机制使得不同任务间可以共享知识并实现互相增益。基于7类常见数据匹配任务实验表明:与特定于任务和数据集的专用模型相比,Unicorn不仅取得了更好的匹配精度,而且具备更好的泛化能力。该论文的原始版本已发表于SIGMOD 2023会议

获奖团队简介

范举教授的研究团队隶属中国人民大学信息学院数据工程与知识工程教育部重点实验室,近年来在杜小勇教授的指导下开展了大量关于数据治理技术的研究工作在相关领域承担了包括国家自然科学基金优秀青年科学基金项目、面上项目、重点项目课题,以及CCF-华为胡杨林基金、CCF-腾讯犀牛鸟基金等多项产学研项目。团队近年来在数据库领域的顶级会议(SIGMODVLDBICDE等)与顶级期刊(VLDB JournalIEEE TKDE等)发表CCF-A类论文60余篇,研究成果在北京市大数据中心、华为、微信等场景落地应用,取得良好成效。