我院多位师生赴美国参加数据库领域顶会VLDB并作报告

发布时间:2019-09-06 15:04 浏览量:541作者: 卢卫新闻类型: 学院新闻

信息学院数据库与智能信息检索实验室(DBIIR)师生在数据库领域顶级会议VLDB上发表3篇论文,其中,实验室陈跃国教授、卢卫副教授、博士生赵展浩、硕士生韩雪冉受邀到美国加州洛杉矶进行学术报告。下图为我院师生在VLDB会议期间的合影。

图1  人大师生在VLDB合影

VLDB 会议是国际公认的数据管理与数据库领域顶尖的三大学术会议(SIGMOD、VLDB、ICDE)之一,旨在展示和推广领域内最新的研究成果和核心科技。自1975年开办至今,VLDB会议已经成功举办了45届,每年的VLDB能在全球范围内吸引到大量优秀的研究人员、企业代表以及行业精英到场参会。根据大会官方公布,今年VLDB共接收了128篇Research Paper、22篇Industry Paper和48个Demo。其中,杜小勇教授领导的数据库与智能信息检索实验室共发表了一篇Research paper、一篇Industry paper、和一篇Demo paper。

(1)Research Paper:Jingru Yang(杨靖茹), Ju Fan(范举), Zhewei Wei(魏哲巍), Guoliang Li, Tongyu Liu(刘同禹), Xiaoyong Du(杜小勇): Cost-Effective Data Annotation using Game-Based Crowdsourcing. PVLDB 12(1): 57-70.

今年VLDB Research Paper投稿677篇,共收录了128篇,录用率18.9%,竞争十分激烈。今年中国人民大学投稿并被收录的Research Paper是关于大规模数据集标注方法的研究,为了提高机器学习和数据挖掘等技术对数据的处理能力,需要快速对海量数据进行高质量的标注。但是现有的大规模数据集标注方法要么成本高昂,要么标签质量不高。为解决这一问题,论文提出了一种具有成本效益的数据标注方法,并侧重于标注规则的生成问题,该问题旨在生成高质量的标注规则,从而在保持质量的同时大幅降低标注成本。

论文研究提出了一种具有成本效益的数据标注方法CrowdGame,不同于与以往的元组级标注方法,论文引入了标注规则来降低标注成本,同时保持很高的数据标注质量。论文设计了一种基于博弈思想的众包方法,将一组未标记的数据元组作为输入,并通过以下两个阶段对它们进行标注。第一阶段是规则生成阶段,首先生成候选规则,然后利用基于博弈的众包方法CrowdGame,来选择高覆盖率、高准确率的规则。CrowdGame雇佣了两组众包工人:一组回答规则验证任务,以发挥规则生成器的作用,而另一组则回答元组检查任务,以发挥规则检查器的作用。论文提出了一种minimax优化方法,用于在双人博弈中统一规则生成器和规则检查器。在第二阶段,论文用上一阶段生成的规则来标注元祖数据。论文利用四个真实数据集,在实体匹配和关系提取两个任务上进行了丰富的实验,实验结果显示论文方法的性能优势。下图为陈跃国教授代表论文作者在VLDB大会作分组报告。

图2:陈跃国教授在VLDB大会做分组报告

(2)Industry paper:Wei Lu(卢卫), Zhanhao Zhao(赵展浩), Xiaoyu Wang, Haixiang Li, Zhenmiao Zhang(张真苗), Zhiyu Shui(水治禹), Sheng Ye, Anqun Pan, Xiaoyong Du(杜小勇): A Lightweight and Efficient Temporal Database Management System in TDSQL. PVLDB 12(12): 2035-2046 (2019)

今年的Industrial track paper主要来自 Google、Microsoft、IBM、Amazon、Facebook、SAP、eBay,以及国内的腾讯、阿里巴巴、蚂蚁金服、华为等企业。中国人民大学与腾讯于2017年起,依托于中国人民大学数据工程与知识工程教育部重点实验室的多年学术积累和腾讯TEG计费平台部丰富的实战经验,在数据库前沿研究领域开展了深入合作,研究成果已经连续两年入选国际顶级会议VLDB。继去年在VLDB2018上通过DEMO论文展示了合作成果MSQL+后(基于TDSQL的插件式近似查询工具, https://mp.weixin.qq.com/s/BZZOH20NfRyCltPkl7Q7_Q)),今年中国人民大学与腾讯的最新联合研究成果“A Lightweight and Efficient Temporal Database Management System in TDSQL”成功被VLDB2019 Industry Track接收并将通过长文形式发表。该研究成果由中国人民大学数据工程与知识工程教育部重点实验室与腾讯TEG计费平台部TDSQL数据库团队深度合作完成。论文介绍了一款基于腾讯分布式数据库管理系统TDSQL扩展而来的全时态数据库系统, 该系统在保证OLTP性能的前提下,提供了轻量级的全时态数据管理功能和全时态数据的事务处理能力、以及集当前态数据于生产系统集历史态数据于分析型系统的集群架构,构成了全时态数据的完备解决方案。论文原文地址:http://www.vldb.org/pvldb/vol12/p2035-lu.pdf。

Q&A环节,现场观众对数据迁移、历史数据的清理策略和维护周期提出问题并展开讨论。会议期间,卢卫老师、赵展浩分别对项目研究成果进行了分组报告和poster展示。

图3:卢卫副教授在VLDB大会做分组报告

图4:赵展浩同学在VLDB大会作Poster展示

(3)Han Xueran(韩雪冉), Jun Chen(陈峻), Jiaheng Lu, Yueguo Chen(陈跃国), Xiaoyong Du(杜小勇): PivotE: Revealing and Visualizing the Underlying Entity Structures for Exploration. PVLDB 12(12): 1966-1969 (2019)

论文介绍了在知识图谱中面向实体的探索性搜索系统,它不仅可以返回用户的查询结果集,还可以通过呈现相似实体和其相关的语义特征(sematic feature)作为探索的指针,让用户通过对界面的操作来进一步对知识图谱进行探索。在检索过程中,我们使用了混合语言模型作为信息检索引擎,将返回查询的top-k个结果实体作为答案。在探索过程中,我们使用一种基于sematic feature的推荐引擎来推荐相关的实体和相关的语义信息以作为下一步探索的探索指针。此外用户可以通过对界面进行简单的操作来查看结果的详细信息或者进行实体领域的跳转,这样既可以让用户在检索过程中动态的重构查询也可以满足用户对不同领域实体的信息需求。下图为韩雪冉同学在VLDB大会作Poster展示

图5:韩雪冉同学在VLDB大会作Poster展示