近日,第28届IEEE高性能计算机体系结构国际研讨会(The 28th IEEE International Symposium on High-Performance Computer Architecture, HPCA 2022)录用结果揭晓,实验室博士生姚鹏程、黄禹和王庆刚的三篇论文均被录用。姚鹏程的论文题目为“ScalaGraph: A Scalable Accelerator for Massively Parallel Graph Processing”,黄禹的论文题目为“Accelerating Graph Convolutional Networks Using Crossbar-based Processing-In-Memory Architectures”,王庆刚的论文题目为“Hardware-Accelerated Hypergraph Processing with Chain-Driven Scheduling”。
近年来,现实应用对于分析复杂图数据的需求日益增长,图计算也因此受到了越来越多的关注和研究。由于图数据的不规则性,大量的乱序数据访问严重限制了图计算应用在通用处理器上的性能。为了解决通用处理器的低效性,许多工作通过设计定制化加速器的方式提升图计算应用的性能。然而,现有工作并未对图加速器架构的扩展性展开深入的研究。现有图加速器通常采用集中式的片上缓存架构实现对图数据的管理。尽管这种架构提供了高效的片上访存效率,却因为极高的硬件开销而难以支持大规模PE的扩展。为此,姚鹏程同学在论文中首次提出基于分布式的片上缓存架构的图加速器ScalaGraph。通过软硬件协同设计,ScalaGraph大幅提升了图加速器的扩展性。实验结果表明,相比于当前国际最先进的成果,该工作可以提升2.2倍性能的同时支持至少1024个PE的扩展。
近年来,随着机器学习的兴起和应用,研究人员借鉴了卷积网络的思想应用于图结构,并在诸多实际场景取得不俗效果。然而,图卷积网络(GCN)表现出混合复杂的计算特征,涉及到类似神经网络的规则计算和传统图分析的不规则处理。现有的GCN加速器通常遵循“分而治之”的理念,构建独立的硬件来分别加速不同的内核。这种混合架构大大改善了内核内的效率,但极少考虑内核间的相互作用。为此,黄禹同学在论文中首次提出基于存内计算的统一架构,从整体的视角同时加速GCN不同内核。为了充分挖掘统一架构优势,该工作从硬件架构设计,软件算法映射,实际执行部署三个维度协同设计。实验结果表明,相比于当前国际最先进的成果,该工作可以提升5.06倍的性能同时降低15.63倍的能耗。
近年来,研究人员发现在寻找大数据中的关系时,图论有其局限性。图将每个关系表示为二元组或成对交互。然而,许多复杂系统不能仅用二元连接来表示。因此,适用于抽象高阶交互的超图受到广泛关注,超图分析系统也应运而生。然而,现有的超图处理系统普遍按照超边和顶点索引的顺序处理超图数据,导致大量重叠超边和顶点的冗余访问,极大地限制了超图分析应用在众核处理器上的性能。为此,王庆刚同学在论文中提出了首个链驱动的超图计算加速器,从而高效地改善超图处理的局部性。具体而言,论文首先提出链的概念来表征超图的重叠特征,揭示现有超图系统中忽视的数据重用机遇。然后,提出了一种新颖的基于链的 Generate-Load-Apply (GLA) 执行模型,显著降低了数据访问开销。同时考虑到链生成引发的高昂运行时开销,论文进一步设计了链驱动的超图加速器ChGraph,通过高效地实现GLA执行模型来提高超图处理的整体性能。实验结果显示,本加速器相对于最好的软件超图处理系统能够获得4.73倍的性能提升,而只带来0.26%的额外硬件开销。
HPCA计算机体系结构领域的顶级国际会议之一,也是中国计算机学会(CCF)推荐的A类会议。第28届HPCA大会预计将于明年2月在韩国首尔举办。
(通讯员:姚鹏程、黄禹、王庆刚)