近日,IEEE国际计算机通信会议(IEEE International Conference on Computer Communications,INFOCOM 2024) 录用结果揭晓,实验室杜冰倩博士和2022级硕士生王书林(导师王雄副教授)的论文均被录用。
杜冰倩的论文题目为“Expediting Distributed GNN Training with Feature-only Partition and Optimized Communication Planning”。在分布式图神经网络(Graph Neural Network,GNN)训练中,基于特征的大规模图数据分割相比于常见的图结构分割具有诸多优势,如较小的图预处理成本和消除跨工作节点的子图采样负担等。然而,仅基于特征进行分割的GNN训练的性能瓶颈仍然主要体现在跨工作节点获取特征而导致的大量通信开销上。为了减少通信开销并加速分布式训练,论文首先研究并回答基于特征分割的分布式GNN训练中GNN模型收敛行为的两个关键问题:1)由于没有任何工作节点拥有每个特征的完整副本,梯度在工作节点之间的交换是否能够弥补由于不完整本地特征导致的信息损失?2)如果对第一个问题的回答是否定的,那么是否在GNN模型的每次训练迭代中都进行特征获取才是确保模型收敛的必要条件?基于对这些问题的理论发现,得出了一个在训练过程中对特征获取频率进行最优决策的通信规划。这一通信方案考虑到工作节点之间的带宽水平,并在模型损失和训练时间之间进行权衡。广泛的评估显示其与论文提出的理论分析一致,并显示了该通信方案设计的有效性。
王书林的论文题目为“On Pipelined GCN with Communication-Efficient Sampling and Inclusion-Aware Caching”。图卷积网络(Graph Convolution Network,GCN)在非结构化数据学习方面取得了巨大的成功。随着图的规模越来越大,分布式环境中频繁的通信严重影响了GCN的训练时间。论文提出了一种训练GCN的方法—PSC-GCN。PSC-GCN是一个用于分布式GCN训练的流水线框架,含有通信高效的采样以及缓存机制,能够在解决通信瓶颈的同时确保模型的训练精度。PSC-GCN通过异步预取方案来提前检索边界节点的陈旧信息(特征、嵌入、梯度),从而使聚合、更新与传输流水线并行化。为了减少通信量,引入了一种基于方差缩减的采样策略,该策略将优先采样内部节点,以减少传输通信量。作为采样策略的补充,设计了一个特征缓存模块来缓冲具有高包含概率的节点,确保频繁采样的边界节点特征在本地缓存。对真实数据集的广泛评估表明,PSC-GCN能够在不牺牲模型精度的情况下,将训练时间减少72%-80%。
INFOCOM是IEEE组织在通信网络领域的旗舰性会议,也是国际通信网络领域的一大标志性会议。本届会议共收到投稿1307篇,录用256篇,录用率约为19.6%。
(通讯员:杜冰倩、王书林)