LOGO LOGO
博士生董雨康的论文被分布式领域会议IPDPS 2025录用
时间:2024-12-23 17:01:52

近日,第39届并行分布式处理国际研讨会(IEEE International Parallel & Distributed Processing Symposium,IPDPS 2025)第一轮录用结果揭晓,实验室2024级博士生董雨康(导师蒋文斌教授)的论文“BRP-SpMM: Block-Row Partition Based Sparse Matrix Multiplication with Tensor and CUDA Cores”被录用。

稀疏-密集矩阵乘法(Sparse-Dense Matrix MultiplicationSpMM)是多个领域中的基础计算操作,利用GPU上的张量核心(Tensor Cores)或CUDA核心加速SpMM已经成为常见的做法。虽然张量核心在密集矩阵乘法中具有显著优势,但在处理稀疏矩阵时,其效率会大幅下降。此外,CUDA核心的计算能力也不容忽视。然而,由于两者支持的存储格式不同,如何在加速SpMM时有效地同时利用这两种核心成为了一项挑战。为此,论文提出了BRP-SpMM,一种专为GPU上高效SpMM设计的块-行划分(Block-Row Partition)方法。BRP-SpMM将稀疏矩阵划分为两部分:张量核心计算的TC块(TC Block part)和CUDA核心计算的剩余行部分(Residual Row part),同时提出了一种定制的存储格式来管理这两部分。为了充分发挥这两部分的特点,进一步设计了两个独立的GPU核函数,并分别采用了负载均衡、寄存器重映射和一维平铺等先进技术。BRP-SpMM能够提高内存访问效率,并更合理地利用GPU计算资源。在NVIDIA A800 GPU上的大量实验表明,与现有方法相比,BRP-SpMM的性能提升最高可达2.9倍(平均提升2.1倍)。此外,在端到端的图神经网络(GNN)训练中,BRP-SpMM相较于现有流行框架,能够实现最高1.9倍的加速。

IPDPS是展示和讨论并行计算领域最新和重要研究成果的国际会议,也是中国计算机学会(CCF)推荐的B类会议。该会议近五年的论文录用率约为25%

(通讯员:董雨康)