信息学院在数据库领域顶级会议VLDB 2023上取得佳绩
近日,数据库领域的国际顶级学术会议 VLDB 2023 在加拿大温哥华落幕,我院师生以第一作者或通讯作者身份在该会议上发表4篇学术长文。VLDB(International Conference on Very Large Data Bases)会议是数据管理与数据库领域的三大国际顶尖学术会议之一,被中国计算机学会(CCF)推荐为A类国际会议,被我校推荐为A+类国际会议。会议聚焦当前数据库研究领域的前沿方向以及工业界,特别是数据库各大厂商的最新技术,吸引了全球顶级科研机构的投稿,对系统创新性、完整性、实验设计等方面都有极高要求。
(1)论文题目:Efficient Distributed Transaction Processing in Heterogeneous Networks
第一作者:张倩(2020级硕士生)
指导老师:卢卫、杜小勇
内容简介:跨数据中心事务是一类常见的分布式事务。由于跨数据中心通信网络时延高、波动大,且处理分布式事务的两阶段提交(2PC)和Paxos协议,需要6轮次的参与节点之间网络通信,显著影响分布式数据库的性能。本篇论文提出了一种预写日志机制和主从副本并发控制,合并了两阶段提交(2PC)和Paxos协议,将参与节点之间网络通信轮数从6次减少为2次。同时借助数据中心内部的RDMA网络,提出了多级事务处理架构,减少了同一轮网络通信内的数据中心间网络通信次数,提升了跨域分布式事务的性能。
(2)论文题目:Approximating Probabilistic Group Steiner Trees in Graphs
第一作者:杨爽(2019级本科生)
指导老师:孙亚辉
内容简介:从图中寻找点集合斯坦纳树(Group Steiner Trees)是图数据分析与挖掘领域的一项重要技术。现有相关工作仅适用于点附属有确定型属性的图数据,不适用于前沿人工智能技术标注的点附属有概率型属性的图数据。针对这一问题,本论文提出了三种具有解的质量的理论保证的近似算法来寻找概率情况下的点集合斯坦纳树,并展示了这些算法在多种大规模真实数据集上的优异性能,克服了现有相关工作难以挖掘概率型属性图数据的技术局限,推动了人工智能的大背景下图数据挖掘理论与应用的进一步发展。
(3)论文题目:FILM: a Fully Learned Index for Larger-than-Memory Databases
第一作者:马超红(2018级博士生)
指导老师:孟小峰
内容简介:现代应用程序以前所未有的速度生成数据,并且通常需要查询/分析跨越较长时间范围的数据,因此开发索引技术以迎合超内存的数据库是至关重要的,其中数据驻留在异构存储设备,支持快速数据插入和查询处理。在本文中,我们提出FILM,一种用于超内存数据库的完全学习索引。FILM是一种学习化的树结构,它使用简单的近似模型来索引跨不同存储设备的数据。与用于超内存数据库的现有技术相比,FILM能够实现以较低的内存开销进行更高效的查询处理。FILM还旨在有效解决超内存数据库中由内存和磁盘之间的数据交换引起的瓶颈之一。更具体地说,现有冷数据识别方法所采用的LRU结构通常会导致查询处理的较高延迟。FILM采用了一种截然不同的方法,它提出了一种自适应LRU结构,并以最小的开销将其更新搭载到查询处理中。我们实验评估了FILM及其组件在各种数据集和工作负载上的性能,结果表明,它在提高查询处理性能和减少索引存储开销方面具有显著优势。
(4)论文题目:Estimating Single-Node PageRank in soft-O(min{dt, sqrt{m}}) Time
第一作者:王涵之(2019级博士生)
导老师:魏哲巍
内容简介:PageRank是一种重要的图分析指标,最初由Google公司的两位创始人提出以计算Google搜索引擎上的网页重要性排名,后成为一种经典的图节点中心性衡量指标,被广泛应用于社交网络、信息检索、推荐系统,甚至生物、化学、神经科学等领域。本篇论文关注无向图上单点PageRank的高效计算问题,该问题期望在尽可能短的时间内近似估计图上一个指定节点(target node t)的PageRank分值,且要求该PageRank估计值与真实值之间的相对误差在常数范围内。本篇论文成功将无向图上单点PageRank的计算复杂度由现有最好结果soft-O(sqrt{n*dt}) 降低至 soft-O(min{dt, sqrt{m}}),该复杂度在非完全图上严格亚线性于图节点数n。此处,d_t为target node t的度数,n、m分别为图节点数和边数。
本次会议共接收论文295篇,其中人大师生作为第一作者和通讯作者的论文共5篇,论文总数位列中国大陆高校第三。