LOGO LOGO
实验室2篇论文分别被数据库领域国际顶会ICDE 2026录用
时间:2025-11-04 16:11:23

近日,实验室博士生高鸿儒(导师廖小飞教授)和武斯杰(导师陈汉华教授)的论文分别被42届国际数据工程会议(The 42nd IEEE International Conference on Data Engineering, ICDE 2026)录用。

高鸿儒的论文题目为GRACE: Alleviating Reconstruction Cost in Dynamic Graph Processing Systems”。如今,基于压缩内存数组(Packed-Memory ArrayPMA)以及压缩稀疏行(Compressed Sparse RowCSR)的动态图处理系统在平衡更新与计算效率上取得了优异的成果。然而,这些系统仍面临着一些挑战:图结构重建时全局拷贝和遍历开销巨大,而且边数组中均匀的数据分布会导致过多冗余的重平衡操作,进而限制了整体更新性能。为此,论文提出了GRACE,一种基于PMACSR系统的轻量级扩展,通过利用图数据的幂律分布特性优化重建过程及布局,在保持内存连续性的同时支持高效更新。GRACE的核心包含两个策略:(1)属性引导的预留策略—将PMA划分为大小一致的块并根据块的热度应用定制的重建方法,在重建过程中最小化拷贝与遍历操作,同时为后续的更新操作提供更优的布局;(2)表亲感知的重平衡策略—评估被处理顶点的影响力,并利用PMA树的表亲数据段将重平衡限制在较小范围,从而减少更新时的重平衡涉及的数据移动规模。在PPCSRTerrace以及VCSR三个现有系统上,GRACE将重建时间提升了10.34倍,总的更新效率和计算效率分别提升了1.43倍和1.15倍。

武斯杰的论文题目为“Astraea: Efficient Pipelined Micro-batch Stream Processing with Non-hash Differentiated Partitioning”。由于真实世界中的数据存在倾斜分布特征,现有流处理系统基于哈希的数据划分方式会导致同一个计算阶段内不同任务上负载不均。负载较低的任务执行较快,而执行完成后任务上空闲的计算资源无法被利用。针对计算资源利用受限的问题,文章提出了一种数据频率感知的差异化数据划分机制Astraea。首先,通过对数据分布特征进行分析,揭示了基于哈希的数据划分策略会导致不同任务上负载倾斜的问题。然后,利用流水线并行的思想,提出了基于数据频率信息确定划分策略的理念。为了避免全局统计中间级数据频率的开销,设计了差异化数据划分方法。对于少数高频键值,利用数据缓存阶段就可用的输入数据统计信息;而对于其余的大部分低频键值,利用精确的map本地中间级数据统计信息。最后,在Spark Streaming上实现了Astraea,并使用不同的大规模真实数据集进行评估。结果表明,与最先进的设计相比,Astraea将计算任务的负载倾斜程度降低了42%,并将系统吞吐量提高了27%

ICDE会议是数据库领域的顶级学术会议之一。每年,ICDE汇聚了来自学术界和工业界的研究人员、工程师与从业者,共同探讨数据库技术、数据管理、数据分析与挖掘、数据存储与检索等领域的最新研究进展和技术创新。2025ICDE投稿量为1518篇,最终接收了300篇(录用率为19.76%)。

(通讯员:高鸿儒、武斯杰)