云计算与大数据实验室.docx

云计算与大数据系统实验室

    


“云计算与大数据系统实验室” 是由柴云鹏教授领导的,致力于云计算,非结构化数据、海量数据、数据库等方向研究的团队,隶属于数据工程与知识工程教育部重点实验室(DEKE)和信息学院计算机系。

在柴云鹏教授的带领下,实验室已经在数据库和云计算领域取得了丰硕的成果:实验室在VLDB,ICDE,ASPLOS等国际顶级会议上发表了多篇论文、近几年主持了多个国家和教育部重点项目,和多家互联网公司都有着密切的合作关系。这些成果是对实验室极大的肯定,更是展示了我院在数据库,云计算领域的世界级研究水平。

实验室立足于时代的前沿,目前主要研究方向有空间数据库、XML、Hadoop、海量web数据集成管理、数据压缩、大图算法、半外存的图算法,(半外存:图上的点在内存里,图上的边在外存(磁盘)上)等。

实验室部分项目简介:

• 华为项目:

1、项目任务:通过压缩技术,提升PostgreSQL数据库的事务性能数据库事务过程中需要不断对磁盘进行I/O操作,每次I/O以磁盘块为基本单位。如果能通过压缩技术,在一个磁盘块中存放更多的数据记录,那么在完成数据扫描的过程中,就可以减少I/O的次数,从而提升整体的事务性能。

2、技术手段:数据表压缩、索引压缩。数据表压缩就是对数据库中的数据表进行压缩存储,主要是利用相邻数据记录之间存在冗余信息的特点,通过某种方式去除这些冗余信息,从而在一个数据块中存储更多的记录。索引压缩的压缩对象是PostgreSQL中的Btree索引结构,通过我们设计的压缩技术,能够在每个叶子节点中存放更多的索引记录。这样,就可以在数据规模不变的情况下,利用更少的叶子节点存储全部的索引记录,从而缩小整个Btree的规模,提升查询速度。

3、项目成果:完成项目验收。

• 大图研究项目:

图(Graph)作为数据处理最常用的数据结构,其规模变得越来越大,远远超乎内存的容量。同时,由于应用问题中实体对象的数量和相互之间的关系都在不断的发生变化,图的结构或内容也不断动态更新,这给传统的图数据处理框架提出了新的挑战。另外,受数据规模以及I/O延迟等因素的影响,基于磁盘的外存算法缺少实际的可行性,无法及时响应面向频繁更新的大图数据的查询处理请求。

本项目拟从以下三个方面开展研究:(1)基于SSD的频繁更新的大图数据存储与管理技术;(2)基于半外存/外存的频繁更新的大图数据处理技术。研究基于频繁更新的大图数据的查询处理算法;(3)设计并实现一个基于SSD的、半外存的、频繁更新的大图数据管理的原型系统。

基于频繁更新的大图数据的查询和管理是一个较新的研究方向,本项目的研究将有效的推动大图数据处理技术的发展,具有十分重要的学术意义和广阔的应用前景。

团队寄语:

• 欢迎各位同学加入我们实验室。 ——柴云鹏教授