博士生赵文举和翟嘉琪的论文分别被计算机体系结构领域顶会HPCA 2025录用-服务计算技术与系统教育部重点实验室

博士生赵文举和翟嘉琪的论文分别被计算机体系结构领域顶会HPCA 2025录用

时间：2024-11-06 08:51:48

近日，第31届高性能计算机体系结构国际研讨会（The 31th IEEE International Symposium on High-Performance Computer Architecture)录用结果揭晓，实验室2022级博士生赵文举（导师廖小飞教授）和2023级博士生翟嘉琪（导师石宣化教授）的论文分别被录用。

赵文举的论文题目为“MeHyper: Accelerating Hypergraph Neural Networks by Exploring Implicit Dataflows”。超图神经网络（Hypergraph Neural Networks，HGNNs）被广泛应用于分析复杂的实体间关系。传统的HGNN系统基于以超边为中心的数据流模型，独立处理超边和顶点的聚合任务，导致计算和访存的冗余性。这种冗余性主要源于不同聚合任务间共享信息的重复计算和访问。文章首次识别并利用HGNN中的隐式数据流（即依赖关系），引入“微边”概念，有效捕捉并重用聚合任务之间复杂的共享信息，从而减少冗余计算和访存。作者针对HGNNs开发了一种新的以微边为中心的数据流模型，将共享信息视为细粒度的微边聚合任务。为了高效处理这一新型数据流模型，提出了一种异步执行模型，并设计了加速器MeHyper，旨在优化以微边为中心的数据流模型中的并行性、流水线效率和缓存效率。实验评估结果表明，MeHyper在性能上相较于基于GPU的系统HyperGef，性能提升达10.51倍，能效提升达9.96倍。

翟嘉琪的论文题目为“AccelES: Accelerating Top-K SpMV for Embedding Similarity via Low-bit Pruning”。在高维数据分析中，Top-K 稀疏矩阵-向量乘法（Sparse Matrix-Vector Multiplication‌，SpMV）对于稀疏嵌入相似度计算至关重要。然而，由于大规模随机分布的稀疏矩阵与传统缓存架构的不匹配，实时性要求高的应用场景面临了显著的挑战。为了解决这一问题，文章提出了针对嵌入相似度计算的 Top-K SpMV 加速器——AccelES。该研究从提高带宽利用率和消除冗余计算这两个正交的角度出发，提出了基于低比特量化的异构核加速器、新型稀疏矩阵存储格式以及非零元素粒度的非结构化剪枝算法。核心见解在于聚焦于关键的 Top-K 结果，减少不必要的计算和内存访问。具体而言，AccelES 首先采用低比特量化技术对稀疏矩阵和稠密向量进行初步的SpMV计算，以快速定位产生 Top-K 结果的行索引。然后，基于这些行索引，进行全精度的 Top-K SpMV 计算，确保计算结果的精确性。为了提升数据传输效率，设计了 Ultra-CSR 和 Random-CSR 编码格式。同时，引入了一种非零元素粒度的非结构化剪枝算法——ReSparse，进一步减少冗余的非零元素，降低计算和传输的开销。实验结果表明，文字提出的软硬件协同设计方法在访存次数上实现了73.5%的平均优化，计算并行度提高了2.7倍，端到端性能提升了3.4倍。

HPCA是计算机体系结构领域的顶级会议，也是中国计算机学会（CCF）推荐的A类会议，H5指数53。该会议一直被认为是计算机体系结构领域难度最大、理论水平最高的会议之一，在全球范围内享有盛誉。此次HPCA 2025会议投稿量534篇，录用率约为21%。

（通讯员：赵文举、翟嘉琪）