信息学院本科生论文被SIGMOD 2022录用

更新时间:2022-03-07 08:01:08 浏览量:

我院2018级本科生辜子惠和范瑞雪同学,利用课余时间在数据工程与知识工程教育部重点实验室进行科学研究,在范举副教授的具体指导下,取得了重要的成果。近日,其撰写的论文《OpenTFV: An Open Domain Table-Based Fact Verification System》被被数据库领域顶级会议ACM SIGMOD(Special Interest Group on Management Of Data)2022录用。

ACM SIGMOD数据管理国际会议(Special Interest Group on Management Of Data.)由美国计算机协会(ACM)数据管理专业委员会(SIGMOD)发起,是数据库领域具有最高学术地位的国际性会议,论文审稿非常严格苛刻。

 

标题:OpenTFV: An Open Domain Table-Based Fact Verification System

作者:辜子惠,范瑞雪,赵小曼,张美慧,范举,杜小勇

团队:中国人民大学数据工程与知识工程教育部重点实验室

录用会议:SIGMOD2022(Demo Track)

研究动机:

本文研究了基于开放域表格数据的事实验证问题。表格数据事实验证旨在以关系表格数据作为证据,来检查某条言论是否正确。以图1为例:BBC曾报道过一则传播广泛的虚假信息,该信息声称在新冠疫情中重度吸烟者的住院率较低。这一说法可以通过相关学术文献中的统计表格来验证,如表格T1就显示了吸烟者和非吸烟者的住院率关系。但是,不同于传统的基于给定表格的事实验证,基于开放域的表格数据事实验证是非常具有挑战性的。首先,与言论相关的表格可能较多。例如,在谷歌学术上搜索图1中的言论,我们可以获得包含相关表格的 10000 多篇论文。因此,从如此大的表格集中寻找最相关的表格作为证据是很困难的。其次,事实验证过程还可能涉及数学运算,例如通过表格数据来计算住院率并进行比较,这一过程也会耗费用户的时间和精力。

为了解决上述问题,本文设计了 OpenTFV,一个用户友好的、基于开放域表格数据的事实验证系统。用户输入言论后,OpenTFV将自动检索出相关表格,并提供基于每个表格的验证结果,以及对结果的解释。 

系统介绍:

     图2展示了OpenTFV的系统结构,主要由四个部分组成,具体为:1)表格数据编码模块。该模块通过预训练语言模型将表格数据编码为向量形式,然后将得到的编码用于后续表格检索和事实验证。为了更好地获取关系表格中的结构信息,该模块通过表格序列化和预训练任务,提高了传统语言模型的表格编码能力。2)表格检索模块。该模块首先使用基于倒排索引的关键字匹配方法来获得候选表集,然后使用预训练语言模型来获得候选表集与言论之间的语义相关度排名。3)事实验证模块。该模块首先分析言论中可能存在的操作序列,然后通过基于结构注意力的模型来得出最终的验证结果。4)自然语言解释生成模块。该模块将前一模块中的操作序列转换成自然语言解释,帮助用户理解事实验证过程。

系统展示:

本文在两个具有代表性的场景中演示了 OpenTFV。(1)基于学术文献表格的新冠疫情相关事实验证。用户可以输入与新冠疫情相关的言论,我们将演示OpenTFV如何从公开的研究数据集中提取新冠疫情相关的表格数据来支持事实验证。(2)基于维基百科类表格的一般事实验证。我们在从维基百科中提取的表格数据上部署了OpenTFV,并展示了相关验证。下面通过一段简短的视频来展示我们的工作。

 

作者简介:

辜子惠,中国人民大学信息学院2018级本科生,计算机科学与技术专业。

范瑞雪,中国人民大学信息学院2018级本科生,计算机科学与技术专业。

范举,中国人民大学数据工程与知识工程教育部重点实验室副教授、博士生导师、中国计算机学会数据库专家委员会委员、大数据专家委员会委员。近年来聚焦人在回路的数据融合、众包数据管理、大数据分析等研究方向,相关成果在计算机领域A类期刊和会议上发表论文40余篇。作为负责人主持了国家自然科学基金优青项目、面上项目、重点项目课题,以及多项腾讯犀牛鸟基金项目。获得2017年度ACM China Rising Award。