LOGO LOGO
实验室2篇论文被体系结构顶刊IEEE TCAD录用
时间:2023-05-05 08:53:34

日,实验室博士李会则(导师金海教授)和硕士生郭雅蒲(导师丁晓锋教授)的论文分别被 IEEE Transactions on Computer-Aided Design of Integrated Circuits and SystemsTCAD录用。

李会则于去年12月博士毕业,现在新加坡国立大学计算机学院做博士后研究,他在实验室求学期间撰写的论文题目为“CPSAA: Accelerating Sparse Attention using Crossbar-based Processing-In-Memory Architecture”。基于注意力机制的神经网络模型在机器学习领域,尤其是在自然语言处理和计算机视觉中显示出了巨大的性能提升。然而,注意力机制的计算复杂度会随着输入序列长度的增长平方增长。研究人员提出了稀疏注意力机制,通过将稠密的矩阵乘法操作转换为稀疏矩阵计算来减少计算复杂度。而稀疏矩阵计算为注意力机制引入了大量的片外随机访存。为此,李会则博士在论文中提出了CPSAA (Accelerating Sparse Attention using Crossbar-based Processing-In-Memory Architecture),一个基于ReRAM阵列的存内计算稀疏注意力加速器。为了减少ReRAM阵列在运行时写延迟过大的问题,设计了新的注意力计算模式,以流水线的方式平衡阵列写延迟和阵列执行延迟。为了减少稀疏掩码过滤过程中的片外传输开销,设计了新的基于存内计算的稀疏掩码过滤结构。为了解决当前稀疏矩阵计算无法高效处理稀疏注意力机制的问题,设计了新的基于耦合ReRAMReCAM阵列的稀疏矩阵处理方法。实验结果显示,CPSAA在与当前性能最好的GPUFPGASANGERReBERTReTransformer相比时,分别能获得89.6倍、32.2倍、17.8倍、3.39倍和3.84倍的性能提升;此外,与上述平台相比,CPSAA同时可以达到755.6倍、55.3倍、21.3倍、5.7倍和4.9倍的能耗节省。

郭雅蒲的论文题目为“Accelerating Loop-oriented RTL Simulation with Code Instrumentation”。电路的硬件描述通常包含许多循环。寄存器传输级 (RTL) 仿真是验证电路正确性的关键步骤,并且非常耗时。因此,有必要加快其进程。然而,现有的RTL仿真加速技术的加速效果通常比较小。硬件加速虽然加速效果好,但是需要高的硬件成本。有一些方法利用性能模型不进行RTL仿真,以获得粗略的仿真性能结果并且具有较大的加速效果。但是,它们不支持功能验证。为了解决这些问题,郭雅蒲提出了一种基于代码插桩的面向循环的RTL仿真加速方法,此方法专用于通过高层次综合得到的设计。提出通过跳过大量重复的循环迭代来减少RTL仿真时间,并通过保留一些循环迭代来保持对周期数预测的高准确度。建立了一个性能预测模型和一个用于跳过循环迭代的区间值公式。在MachSuite基准测试集上的实验结果表明,对比Xilinx Vivado高层次综合工具(VitisHLS 2021.1)中最原始的RTL仿真流程,对于单个数据处理和批量数据处理的RTL仿真,提出的方法的平均加速分别可以达到 7.49倍 和 43.3倍,循环次数的平均预测误差分别为1.71%1.06%。用提出的区间值公式得到的间隔值可以快速有效地在周期数预测的准确性和加速效果之间取得平衡。与当前最先进的方法 ESSENT相比,提出的方法加速效果更好,并且预测周期数的准确性与性能模型保持在同一水平。

IEEE TCAD主要关注包括模拟信号、数字信号和混合信号等在内的集成电路和系统计算机辅助设计领域最新的研究进展和技术,是中国计算机学会(CCF)推荐的A类期刊,每年刊出12 期,该期刊的影响因子为2.565

(通讯员:李会则、郭雅蒲)