信息学院DBIIR参赛队在首届中国大数据技术创新大赛中获奖

发布时间:2013-12-19 09:56 浏览量:3255新闻类型: 学院新闻

“大数据时代”已经来临,正越来越深刻地影响着各行各业的发展。“大数据技术”旨在帮助人们从海量的、复杂的、快速增长和变化的数据中获得知识和决策支持,转变现有的工作生活方式,提升效率。在此背景下,中国计算机学会(CCF)和中国科学院、重庆市政府联合主办首届大数据技术创新与创业大赛。比赛分为创新分赛和创业分赛。创新分赛竞赛委员会由北京大学李晓明教授担任主席,比赛采取命题方式,主要针对高校学生,自2013年9月1日发布赛题并开放报名,历时3个多月,共有来自国内外各高校和科研院所的660支队伍参赛,最终决出一等奖1支队伍、二等奖3支队伍、三等奖13支队伍。创业分赛不预设题目,主要针对拥有数据技术、产品,或创业计划的个人、团队和企业,目前仍在进行中。

创新分赛中,百度、中国移动研究院等大数据企业根据生产中遇到的问题提出了“关键词行业分类”、“电信网络寻呼黑洞分析”、“用户购买行为的归因分析”、“电信用户交往圈构建和特定类型用户识别”、“基于出租车GPS轨迹的位置服务”等五道赛题。比赛采用两轮赛制,首先由各个赛题评选出不超过4个竞赛队参加决赛。然后全部决赛队就自己的解决方案统一进行答辩,由CCF大数据专家委员会和各企业技术专家组成专家组就各个队伍的解决方案提问并投票决出最终比赛结果。

由我校信息学院数据库与智能信息检索实验室研究生卞昊穹、陈峻、张慧杰组成的DBIIR参赛队在陈跃国老师的指导下参加了本次大赛,完成了“电信网络寻呼黑洞分析”赛题并以性能评测指标赛题第一的成绩进入决赛。该题要求参赛队使用大数据分析工具,对移动通信网络信的令日志进行分析,定位出由干扰、屏蔽等因素造成的寻呼黑洞,以便后续的网络优化、提高移动通信网络的服务质量。此赛题要求利用非常有限的计算资源,对海量的、不断增长的信令日志进行实时的查询分析。实时大数据分析长期以来是数据库领域最具挑战的研究方向,各行各业对实时大数据分析系统的需求也非常大,各大数据库厂商、互联网公司和开源社区相继推出了多种大数据实时分析产品,推动大数据实时分析市场进入了百家争鸣的时代。

DBIIR参赛队对目前主流的hive、impala、shark、stinger、presto等大数据分析系统进行了测试和分析,发现这些系统在实时查询性能上都无法满足比赛的要求。参赛队在借鉴上述系统和传统并行数据仓库优点的基础上,提出并完成了基于MPP(Massively Parallel Processing)数据库系统架构和列存储技术的解决方案,在单机的开源列存储引擎brighthouse的基础上实现了并行查询处理集群,在比赛提供的测试环境下,比现有开源大数据分析系统性能高出1-3个数量级,出色地完成了比赛。经过决赛阶段答辩,参赛队最终获得了三等奖和奖金1万元人民币。据了解,本赛题共有80多支队伍参赛,最后仅有两支参赛队进入决赛,并均获得三等奖。

颁奖典礼于2013年12月5日的中国大数据技术大会上举行,队长卞昊穹代表DBIIR参赛队领取获奖证书,同时,在大会特设的专场上报告了我们的技术方案和结果。