LOGO LOGO
实验室多篇论文被设计自动化领域顶会DAC 2024录用
时间:2024-03-07 09:04:39

近日, 2024年国际设计自动化会议(The 60th Design Automation Conference,DAC 2024)录用结果揭晓,实验室段卓辉博士、王庆刚博士及博士生刘海峰(导师郑龙教授、廖小飞教授)、余辉(导师张宇教授)和硕士生黄浩琴(导师金海教授)的6篇论文均被录用

段卓辉的论文题目为“TIGA: Towards Efficient Near Data Processing in SmartNICs-based Disaggregated Memory Systems”。在智能网卡(Smart Network Interface Card,SmartNICs)的推动下,内存分离已成为数据中心共享内存资源的高效方法。然而,当前基于SoC(System on Chip)的SmartNICs在有效支持分离式内存系统中的近数据处理(Near-Data Processing, NDP)时仍面临一些挑战,例如用于NDP的SmartNICs的资源分配效率不高,以及内存节点上的SmartNICs与计算节点上的CPU之间缺乏协作等。为此,文章提出了一种基于SmartNICs的分离式内存系统的高效NDP框架——TIGA。TIGA能够通过一种自适应资源分配器充分利用NDP引擎之间的SoC内核,同时TIGA实现了一种SmartNICs-CPU协同计算机制来调度CPU和SmartNICs之间的NDP任务,从而降低了计算节点的CPU开销。通过对基于FPGA实现的TIGA系统原型在几种典型的近数据处理工作负载下的测试表明,与Floem、iPipe和FairNIC等最先进的基于SmartNICs的卸载方案相比,TIGA可以将在SmartNICs上的NDP性能提高高达90%。此外,在负载过载的场景下,TIGA可以通过SmartNICs-CPU协同处理将最大吞吐量提高1.6倍至3.3倍。

王庆刚的论文题目为“High-Performance and Resource-Efficient Dynamic Memory Management in High-Level Synthesis”。高层次综合(High-level Synthesis,HLS)具有生产率高和易于使用的优点,为基于FPGA(Field Programmable Gate Array)的加速器快速开发带来了便利。然而,由于缺乏对动态内存管理(Dynamic Memory Management,DMM)的支持,现有高层次综合工具的适用范围受到了限制。尽管最近已有研究提出了面向高层次综合的动态内存管理方案,但作者发现目前还没有一个解决方案能够同时满足高性能(即最小内存分配延迟)和低开销(即以最少FPGA资源消耗管理任意大小的内存)的需求,限制了其实用性。为此,文章提出了HeroDMM —— 一种面向高层次综合的高性能、低开销动态内存管理器。具体而言,HeroDMM首先利用类笛卡尔树(Cartesian Tree,CT)结构来组织管理内存区域,然后在此基础上进一步设计了高并行的内存分配算法,并根据该算法定制了硬件模块,以同时实现低分配延迟和低硬件开销。结果表明,相较于最新先进高层次综合动态内存管理解决方案,HeroDMM可降低61.69%~99.99%的内存分配延迟和23.79%~97.22%的硬件资源消耗。

刘海峰的论文题目为“Towards Redundancy-Free Recommendation Model Training via Reusable-aware Near-Memory Processing”。近些年来,推荐系统在各行各业中发挥着越来越重要的作用。其中推荐系统的嵌入层(Embedding Layer)由于庞大的数据量和不规则的访存,成为整个系统的性能瓶颈。现有工作利用嵌入层的数据局部性来缓存经常访问的嵌入向量及其中间结果,从而降低嵌入层内存访问和计算冗余,提高推荐系统性能。但是,这些解决方案依赖于静态数据缓存,仅适用于推荐系统的推理过程,而并不适用于嵌入向量动态更新的训练场景。为此,文章提出了适用于推荐系统训练的无冗余近内存处理解决方案ReFree。ReFree在嵌入层训练的前向和反向传播过程中,能够实时识别可重复使用的嵌入向量和梯度数据,并利用近内存计算架构实现整个嵌入层训练过程的无冗余近内存加速。评估结果表明,ReFree相比目前最先进的解决方案性能提升10.9倍,平均能耗降低5.3倍。

余辉的论文题目为“CDA-GNN: A Chain-driven Accelerator for Efficient Asynchronous Graph Neural Network”。近些年来,图神经网络(Graph Neural Network,GNN)凭借其出色的能力在处理复杂的图结构数据方面获得了广泛的关注和研究。它们在诸如社交网络分析、推荐系统、蛋白质结构预测以及交通网络优化等领域展现了巨大的潜力。GNN通过有效地利用图中节点之间的关系信息,能够捕捉到传统神经网络模型难以理解的结构化数据特征。然而,AGNN的实现和优化仍面临挑战。传统的软硬件解决方案往往难以高效处理AGNN的不规则计算模式,导致冗余计算和大量的芯片外通信,这些都严重影响了模型的性能和能效。因此,文章提出了基于链式驱动的异步图神经网络加速器——CDA-GNN。CDA-GNN提出了一种基于链式驱动的异步执行方法,通过规范化顶点的特征状态传播,减少大量冗余计算和片外访存开销,并设计了一种链式感知的数据缓存方法,通过缓存链式中被频繁访问的顶点状态,以提高AGNN的数据局部性。在Xilinx Alveo U280加速卡上的实验结果表明,CDA-GNN相较于目前最好的基于FPGA的同步GNN解决方案(BlockGNN和FlowGNN),性能平均提升10.2倍和7.9倍。

余辉的另一篇论文题目为“RTGA: A Redundancy-free Accelerator for High-Performance Temporal Graph Neural Network Inference”。 时序图神经网络(Temporal Graph Neural Network, TGNN)最近成为图神经网络研究的新热点。不同于传统只学习静态拓扑结构的图神经网络(GNN),TGNN通过融合图神经网络和时间序列模型的思想,同时学习图的拓扑结构和时间维度的时间相关性,可以更好地表示和分析时序图中的模式。然而,现有的软硬件解决方案在执行TGNN推理时,由于需要重新计算相同的消息并且需要更新未受影响的顶点内存,因此面临着冗余计算开销大和过多的不规则内存通信问题。为了解决这些问题,文章提出一种消除TGNN推理过程中冗余计算的加速器RTGA。具体来说,RTGA提出了一种基于时间树的冗余感知执行方法,并将其融入到新型加速器设计中,通过构建时序树来指导时序图顶点采样过程中对相同图顶点的重复采样和计算,从而减少时序图神经网络推理过程中的冗余计算和不规则片外访存开销。此外,RTGA还设计了一种时间感知的数据缓存方法,通过结合时序图拓扑特性和图顶点时序采样次数来实现顶点内存和消息的高效缓存,以提高TGNN的数据局部性。在Xilinx Alveo U280加速卡上的实验结果表明,RTGA相较于目前最好的基于FPGA的静态GNN解决方案(BlockGNN和FlowGNN),性能平均提升8.2倍和6.9倍。

黄浩琴的论文题目为“SpaHet: A Software/Hardware Co-design for Accelerating Heterogeneous-Sparsity based Sparse Matrix Multiplication”。稀疏通用矩阵-矩阵乘法(Sparse General Matrix-matrix Multiplication,SpGEMM)被广泛应用于数据挖掘领域中,其不规则的内存访问模式导致在通用处理器上性能受限,激发了众多基于FPGA(Field Programmable Gate Array)的先进研究。然而,现有的加速器难以高效处理输入矩阵的异构稀疏性,而这在多种实际应用场景中普遍存在。通过深入的实验分析,文章发现其性能瓶颈受限于固定划分机制,该机制只能缓解部分输入矩阵的不规则性。针对这一问题,文章提出了SpaHet,一套面向稀疏矩阵乘法SpGEMM的软硬件协同设计方法。SpaHet采用了双自适应滑动窗口来同时覆盖两个输入矩阵的重用性,根据输入矩阵稀疏度自动生成最优的划分和调度策略,避免了依赖经验的固定划分策略。此外,还提出了一种稀疏性感知的合并树方法,通过有效累加中间结果以最大化输出矩阵的重用性。在Xilinx Alveo U280加速卡上的实验结果表明,相比于目前最好的基于CPU、GPU和FPGA的SpGEMM解决方案,SpaHet分别能够实现7.71倍、1.1倍和2.74倍的性能提升。

DAC是设计自动化领域的顶级国际会议,是中国计算机学会(CCF)推荐的A类会议。该会议近五年的录用率约为23%。


(通讯员:段卓辉、王庆刚、刘海峰、余辉、黄浩琴)