近日,实验室2023届硕士毕业生朱占洋(导师金海教授)的论文“MMDataLoader: Reusing Preprocessed Data among Concurrent Model Training Tasks”被 IEEE Transactions on Computers (TC) 期刊录用。
数据预处理在深度学习中占有重要地位,它通过解决训练数据的可用性、一致性、多样性等问题直接影响模型的训练效果。训练数据通常会首先在CPU上进行预处理计算,然后送到GPU上进行模型训练。文章作者观察到,在CPU资源有限的情况下,预处理计算很可能成为深度学习训练新的性能瓶颈。针对此问题,论文提出了一种全新的服务器级数据加载引擎:MMDataLoader,区别于常规任务级的数据加载引擎,它可以实现跨任务的预处理数据复用来提高训练速度。首先,论文提出了一种自动化构建的分支流水线结构,通过压缩预处理计算流来降低CPU的计算压力,同时实现跨任务的预处理数据复用。然后,论文提出了一种全新的批数据生成机制,基于速度感知、最大化复用、预感知逐出等策略来生成批数据,在满足各任务数据需求的同时保证尽可能高的数据复用率。实验结果表明,MMDataLoader具有高效的跨任务预处理数据复用能力,相较于常规的数据加载引擎,MMDataLoader获得了最高3.15倍的加速比。
IEEE Transactions on Computers是计算机体系结构领域最权威的国际学术期刊之一,属于中国计算机学会CCF A类期刊,影响因子为3.7。
(通讯员:李雨昊)