近日,2021级博士生闫建荣(导师蒋文斌教授)的论文“RT-GNN: Accelerating Sparse Graph Neural Networks by Tensor-CUDA Kernel Fusion”被 ACM Transactions on Architecture and Code Optimization (TACO) 期刊录用。
得益于GPU的新硬件特性以及强大的计算能力,图神经网络 (Graph Neural Network,GNN) 在各种基于图的训练与推理任务中取得了显著成果。然而GNN在使用GPU中先进的Tensor Cores (TCs) 和CUDA Cores (CDs) 的并行工作方面仍面临巨大挑战,且由于图的高稀疏性和不规则非零分布导致的重复、低效和冗余聚合进一步加剧了该挑战。为解决此问题,论文提出了一种基于先进的TCs和CDs核融合的GNN框架—RT-GNN,该框架首次利用邻接矩阵乘法特性去消除冗余的节点聚合和数据访问,同时保持高并行性来提升计算效率。具体来说,RT-GNN首先对图聚合的中间聚合结果进行分层管理,辅助贪心搜索与度匹配进一步消除中间聚合中的冗余,得到无冗余的层次嵌入图 (Hierarchical Embedding Generators,HEG);其次,为了降低图稀疏性对计算的影响,RT-GNN通过一种新的基于块的逐行乘积方法,将HEG中的矩阵块根据其稀疏性布局到TCs和CDs单元上并实现异构核并发计算。结果表明,HEG对冗余消除的性能提升了19.3倍,特别是在ARXIV数据集上的提升高达72倍。就整体训练和推理性能而言,RT-GNN在保持甚至提高任务精度的同时,相对最先进的GNN框架(包括DGL、HAG、GNNAdvisor和TC-GNN)平均加速达3.1倍。
ACM Transactions on Architecture and Code Optimization (TACO) 是计算机系统结构和编译领域最权威的国际学术期刊之一,也是中国计算机学会CCF A类期刊。每季度出版一期,每期录用论文20篇左右,主要关注计算机系统结构和代码优化方面的硬件、软件和系统研究等方面的研究。
(通讯员:闫建荣)