近日,第51届超大型数据库国际会议(The 51st International Conference on Very Large Databases, VLDB 2025)录用结果揭晓,实验室硕士生柳俊(导师杜冰倩老师)的论文“PipeTGL: (Near) Zero Bubble Memory-based Temporal Graph Neural Network Training via Pipeline Optimization”被录用。
近年来,基于记忆的动态图神经网络(Memory-based Temporal Graph Neutral Network)在动态图的学习任务中表现出了优越的性能,这归功于其具有的一种独特结构:用于收集每个节点历史信息的记忆模块(Memory Module)。然而,记忆模块在训练的不同批次之间存在依赖性,现有的分布式训练方法均会破坏这一依赖关系。论文通过实验发现,使用陈旧的记忆信息会带来模型准确率降低、收敛所需的轮次数增加等问题,这给动态图神经网络在分布式场景下的训练带来了新的挑战。因此,论文提出了一种基于流水线方法的分布式动态图神经网络训练框架——PipeTGL。PipeTGL通过将模型训练过程整理为有向无环图(Directed Acyclic Graph,DAG)来寻找训练批次间与批次内存在依赖关系的部分,并在此基础上采用更有效的调度方法减少流水线中由于通信与计算依赖产生的气泡。实验结果表明,相较于目前最先进的两种分布式动态图神经网络训练框架GNNFlow和DistTGL,PipeTGL将训练速度提升至前两者的1.27到4.74倍,且达到了更高的模型准确率。
VLDB是数据库领域的顶级国际学术会议,是中国计算机学会(CCF)推荐的A类会议,发表的论文备受各界关注,近年来平均录用率为22%。
(通讯员:柳俊)