LOGO LOGO
实验室多篇论文被高性能计算领域顶会SC 2025录用
时间:2025-06-30 18:37:03

近日,高性能计算、网络、存储与分析国际会议(Conference for High Performance Computing, Networking, Storage, and Analysis, SC 2025)录用结果揭晓,实验室博士生何伟东(导师刘海坤教授)、李可欣(导师廖小飞教授)、董雨康(导师蒋文斌教授)的三篇论文均被录用。

图神经网络的计算开销主要在Aggregation阶段,该阶段操作可以转化为稀疏稠密矩阵乘法。然而,图数据规模巨大,其节点数量达到百万甚至亿级,采用传统的内积或外积的计算方式往往会引入巨大的计算开销。为此,何伟东在题为“StraGCN: GPU-Accelerated Strassen's Sparse-Dense Matrix Multiplication for Graph Convolutional Network Training”的论文中提出了基于Strassen算法的低时间复杂度稀疏稠密矩阵乘法解决方案。论文提出的水平融合的策略将Strassen算法分成3层,并以融合算子分别计算每一层,极大的降低了核启动以及上下文切换开销。另外,为了解决Strassen算法中出现的矩阵间以及矩阵内稀疏分布不均问题,论文提出了两阶段划分策略,并分别以Metis和贪心算法进行负载均衡。实验结果表明,相较于三个基线方案(GNNA, PyG, DGL), StraGCN在RTX 4090 GPU中分别获得了2.1倍,2.6倍,3.3倍的提升。

近年来,随着大规模语言模型(Large Language Model,LLM)的广泛应用,混合专家(Mixture-of-Experts, MoE)模型凭借推理阶段仅稀疏激活少量专家的特性,有效缓解了大模型的计算压力,受到学术界和工业界的广泛关注。然而,MoE 模型需要庞大的专家参数,这在资源受限的单GPU环境下带来了显著的部署难题。现有方法通常将专家参数存放于主机内存,并结合复杂的专家预取机制将其加载至GPU,但这些策略多针对单批次推理优化,在大批次推理中容易遭遇通信瓶颈,限制端到端性能。李可欣在题为“Diff-MoE: Efficient Batched MoE Inference with Priority-Driven Differential Expert Caching”的论文中通过实验观察到,MoE 推理中的专家激活表现出显著的空间与时间局部性:少数专家会在全局或局部阶段反复被激活。基于此观察,论文提出了Diff-MoE架构,设计了优先级驱动的差分缓存,包含高优先级缓存(常驻专家)、中优先级缓存(动态维护)和低优先级缓存(临时加载),有效降低了通信开销。同时,Diff-MoE集成轻量预测器,可实现未来专家的预取与当前计算重叠,进一步降低通信延迟、提升整体吞吐效率。实验结果表明,与现有最先进方法 DeepSpeed、Pre-gated MoE 和 MoE-Infinity 相比,Diff-MoE 在多个基准任务中平均吞吐量分别提升 2.74 倍、2.22 倍和 1.55 倍。

稀疏-密集矩阵乘法(Sparse Matrix-Matrix Multiplication,SpMM)广泛应用于科学计算、图处理和深度学习等领域。近年来,借助GPU中张量核心(Tensor Cores, TCs)加速SpMM计算成为研究热点。尽管 TCs 在块状乘法中表现出色,但面对非结构化稀疏矩阵,较低的块内密度常造成大量的计算资源浪费。稀疏张量核心(Sparse Tensor Cores, SpTCs)可通过跳过部分零元素的计算缓解此问题,但受限于严格的2:4或1:2结构化稀疏,适用范围有限。为突破此瓶颈,董雨康在题为“Bridging the Gap between Unstructured SpMM and Structured Sparse Tensor Cores”的论文中受图论中的最大匹配问题启发,提出MP-SpMM,其核心创新在于“匹配与填充”(Matching and Padding)方法,可将一般稀疏矩阵重构为SpTCs支持的结构化形态。与此同时,论文还设计了全新的稀疏存储格式以最大化GPU的访存效率,并利用PTX级别的mma.sp指令实现了高度优化的GPU计算内核,进一步释放 SpTCs 的性能优势。在超过900个稀疏矩阵上的实验显示,MP-SpMM相较广泛使用的cuSPARSE最高提速达39.1×,相较SOTA方法依旧可达7~8×,展现出强大通用性与领先性能。

Supercomputing会议是系统结构与高性能计算领域最具影响力的国际学术会议之一,由美国计算机学会(ACM)和电气电子工程师学会(IEEE)合办,也是中国计算机学会(CCF)认定的A类会议。今年的 SC 会议竞争尤为激烈,共收到 643 篇投稿,较去年增长约 43%,最终录用 136 篇,录用数量虽创新高,但录用率仅为 21.2%,为近七年来最低。


(通讯员:何伟东、李可欣、董雨康)