LOGO LOGO
实验室硕士生冯泽钊的论文被SoCC 2020 录用
时间:2020-08-17 08:48:32

近日,ACM 2020年云计算研讨会 (ACM Symposium on Cloud Computing 2020,SoCC’20) 录用结果揭晓,实验室硕士生冯泽钊的论文“ByteSeries : An In-Memory Database for Large-Scale Monitoring Systems”被录用。

近年来,大型互联网服务监控系统对于处理大规模时序监控数据的需求日益增长,因此,时序数据库以及相关系统的研究受到了极大的关注。由于时序数据的规模庞大,并且在不同的业务场景下数据的采集方式不同,导致时间序列数据的tag元数据(多组用于区分标记序列的key以及其value值)具有极大的动态性。因此,在对数据点进行了一般性压缩处理之后,时序数据的元数据信息存储成为了一个非常突出的问题。传统方式一般采取字典编码的方式对这些元数据进行压缩处理,但在面对海量的数据时,仍然存在性能瓶颈,且庞大的字典规模也会影响检索性能。

论文通过对字节跳动公司真实生产环境中超过百亿的不同维度的时序数据进行分析观察发现,在实际的管理和存储过程中,花费在元数据上的内存开销内存瓶颈的主要痛点。其次,虽然数据规模庞大到了百亿级别,但是序列元数据间却具有一定相近特征。基于上述发现,基于大规模监控系统,论文提出了一种面向大规模时序数据管理、具有新的内存布局设计和元数据压缩模式的内存时序数据库,主要创新点包括:

1)多层级模式的内存划分。将内存划分为动态区和静态区两部分,分别用于维护数据吞吐性能和执行元数据压缩功能。

2)压缩倒排索引结构设计。基于元数据特征,设计实现了一种高效压缩元数据的倒排索引结构,在保证查询效率的同时获取高效的压缩效果。

ACM SoCC是云计算领域的的顶级国际会议,本届会议共计接收143篇投稿,共录用35篇论文,录用率约为24.5%。

(通讯员:冯泽钊)