近日,第31届高性能计算机体系结构国际研讨会(The 31th IEEE International Symposium on High-Performance Computer Architecture)录用结果揭晓,实验室2022级博士生赵文举(导师廖小飞教授)和2023级博士生翟嘉琪(导师石宣化教授)的论文分别被录用。
赵文举的论文题目为“MeHyper: Accelerating Hypergraph Neural Networks by Exploring Implicit Dataflows”。超图神经网络(Hypergraph Neural Networks,HGNNs)被广泛应用于分析复杂的实体间关系。传统的HGNN系统基于以超边为中心的数据流模型,独立处理超边和顶点的聚合任务,导致计算和访存的冗余性。这种冗余性主要源于不同聚合任务间共享信息的重复计算和访问。文章首次识别并利用HGNN中的隐式数据流(即依赖关系),引入“微边”概念,有效捕捉并重用聚合任务之间复杂的共享信息,从而减少冗余计算和访存。作者针对HGNNs开发了一种新的以微边为中心的数据流模型,将共享信息视为细粒度的微边聚合任务。为了高效处理这一新型数据流模型,提出了一种异步执行模型,并设计了加速器MeHyper,旨在优化以微边为中心的数据流模型中的并行性、流水线效率和缓存效率。实验评估结果表明,MeHyper在性能上相较于基于GPU的系统HyperGef,性能提升达10.51倍,能效提升达9.96倍。
翟嘉琪的论文题目为“AccelES: Accelerating Top-K SpMV for Embedding Similarity via Low-bit Pruning”。在高维数据分析中,Top-K 稀疏矩阵-向量乘法(Sparse Matrix-Vector Multiplication,SpMV)对于稀疏嵌入相似度计算至关重要。然而,由于大规模随机分布的稀疏矩阵与传统缓存架构的不匹配,实时性要求高的应用场景面临了显著的挑战。为了解决这一问题,文章提出了针对嵌入相似度计算的 Top-K SpMV 加速器——AccelES。该研究从提高带宽利用率和消除冗余计算这两个正交的角度出发,提出了基于低比特量化的异构核加速器、新型稀疏矩阵存储格式以及非零元素粒度的非结构化剪枝算法。核心见解在于聚焦于关键的 Top-K 结果,减少不必要的计算和内存访问。具体而言,AccelES 首先采用低比特量化技术对稀疏矩阵和稠密向量进行初步的SpMV计算,以快速定位产生 Top-K 结果的行索引。然后,基于这些行索引,进行全精度的 Top-K SpMV 计算,确保计算结果的精确性。为了提升数据传输效率,设计了 Ultra-CSR 和 Random-CSR 编码格式。同时,引入了一种非零元素粒度的非结构化剪枝算法——ReSparse,进一步减少冗余的非零元素,降低计算和传输的开销。实验结果表明,文字提出的软硬件协同设计方法在访存次数上实现了73.5%的平均优化,计算并行度提高了2.7倍,端到端性能提升了3.4倍。
HPCA是计算机体系结构领域的顶级会议,也是中国计算机学会(CCF)推荐的A类会议,H5指数53。该会议一直被认为是计算机体系结构领域难度最大、理论水平最高的会议之一,在全球范围内享有盛誉。此次HPCA 2025会议投稿量534篇,录用率约为21%。
(通讯员:赵文举、翟嘉琪)