信息学院云计算与大数据系统实验室论文被SIGMOD 2024录用

更新时间:2023-08-24 17:16:04 浏览量:

中国人民大学信息学院云计算与大数据系统实验室的最新研究成果《SALI: A Scalable Adaptive Learned Index Framework based on Probability Models》被数据库领域顶级会议ACM SIGMOD(ACM SIGMOD International Conference on Management of Data)2024录用为长文。论文的第一作者是我院2020级博士生葛加可,指导教师为柴云鹏教授。

ACM SIGMOD 数据管理国际会议是由美国计算机协会(ACM) 数据管理专业委员会(SIGMOD) 发起,与 VLDB、ICDE 并称为数据库业界的三大顶级学术会议,是中国计算机学会(CCF)推荐的A类国际学术会议,也是中国人民大学A+类学术会议。SIGMOD 2024将于明年6月9日在智利首都圣地亚哥举行。

论文介绍:

1、论文题目:SALI: A Scalable Adaptive Learned Index Framework based on Probability Models

作者:葛加可,张焕晨(清华),施博宇,骆远辉,郭云达,柴云鹏(通讯作者),陈育兴(腾讯),潘安群(腾讯)

2、论文概述

随着数据存储容量的增长和对存储数据高性能的不断需求,现有的并发索引结构面临着许多挑战。学习索引是一种有前途的解决方案,它使用基于学习的方法来适应存储数据的分布并预测定位目标键,从而显著提高查找性能。尽管具有这些优点,但现有的学习索引在多核数据存储上遭遇到可扩展性的瓶颈。

本文介绍了SALI,即一种可扩展的自适应学习索引框架。它包含了两种策略,旨在实现高可扩展性和增强学习索引的鲁棒性。首先,SALI设计了一组节点演化策略,使学习索引能够适应各种工作负载偏差,并在这种情况下增强其并发性能。其次,SALI提出了一种基于概率模型的轻量级策略,用于在学习索引中维护统计信息,以进一步提高索引的可扩展性。此外,为了验证它们的有效性,SALI将上述两种策略应用于利用细粒度写锁的学习索引结构,即LIPP+。我们使用真实应用的数据集进行了微基准测试。实验结果表明,相比于并发性能第二好的学习索引(ALEX+),SALI在64线程下插入操作的吞吐性能平均提高了2.04倍,表现更出色。此外,SALI实现了与LIPP+相似的查找吞吐性能。

作者简介:

葛加可,中国人民大学信息学院2020级博士生,导师为柴云鹏教授。主要研究方向为学习索引、数据库自动调优等。

指导老师简介:

柴云鹏,中国人民大学信息学院教授、博士生导师,计算机系主任,中国计算机学会数据库专委会执行委员、信息存储技术专委会执行委员。曾任中国计算机学会教育工委主任助理、VLDB 2021 Sponsor Chair。主要研究方向为数据库系统、存储系统、云计算等。主持国家重点研发计划项目课题、国家自然科学基金、北京市自然科学基金等项目,在ASPLOS、DAC、ICDE、IEEE TKDE、IEEE TPDS、IEEE TC、MSST等知名国际会议和期刊上发表学术论文40余篇,获得国家发明专利10余项。获得深圳市科技进步一等奖、北京市高等教育教学成果一等奖等重要奖励。