LOGO LOGO
博士生彭轩的论文被体系结构和系统领域顶刊TC录用
时间:2023-05-22 09:28:30

近日,2017级博士生彭轩(导师石宣化教授)的论文“Waterwave: A GPU Memory Flow Engine for Concurrent DNN Training”被 IEEE Transactions on Computers (TC) 期刊录用。

并行训练深度神经网络 (DNN) 对于深度学习系统来说变得越来越重要,例如在超参数优化和神经架构搜索中,并行训练神经网络可以提升搜索效率。但是由于神经网络训练过程中内存使用量巨大,有限的GPU内存难以支持多个 DNN 在同一个 GPU 上训练。针对此问题,论文提出了一种用于并行深度学习训练的 GPU 内存流引擎:Waterwave。首先,为了解决在多GPU流执行时内存分配和内存释放之间的长时间滞后带来的内存爆炸问题,开发了一个为多流定制的内存分配器。通过让内存分配器知道GPU流信息来根据内存块的同步属性进行优先分配,因此在计算被调度后就可以提供可用内存;其次,Waterwave 将计算图划分为一系列连续的节点组,然后以节点组进行细粒度的流水线执行来保证正确的内存请求顺序:即内存分配请求节点组的执行在内存释放节点组的执行之后。实验结果表明,Waterwave具有高效的内存共享效率,同时相较于现有的空间共享和时间片共享方式,并行训练效率获得了最高12和1.49x的加速比。

IEEE Transactions on Computers是计算机体系结构和系统领域最权威的国际学术期刊之一,属于中国计算机学会CCF A类期刊,影响因子为3.183。


(通讯员:彭轩)