近日,2023级博士生袁正一(导师王雄副教授)的论文“DynPipe: Towards Dynamic End-to-End Pipeline Parallelism for Interference-Aware DNN Training”被IEEE Transactions on Parallel and Distributed Systems (TPDS)期刊录用。
管道并行已成为训练大型深度神经网络不可或缺的技术。尽管现有的异步管道系统缓解了同步架构中固有的时间气泡问题,它们仍因次优且静态的配置而在易变硬件环境下面临效率低下与易受干扰的困境。文章提出 DynPipe,一种感知干扰的异步管道框架,用于在高度动态的计算环境中优化端到端训练性能。通过刻画不可重叠的通信开销以及在分阶段陈旧度条件下的收敛速度,DynPipe 精心设计了优化的管道划分,使硬件速度与统计收敛相协调。此外,DynPipe 部署了一个非侵入式的随机森林模型,利用运行时的阶段统计来评估环境变化(如任务干扰与网络抖动)对训练效率的影响。依据该评估指导,DynPipe 自适应地调整划分方案,以恢复阶段内与阶段间的负载均衡,从而在动态环境中实现无缝的管道重配置。大量实验表明,DynPipe 优于Pipedream系统,将达到目标精度的时间加速了1.5–3.4倍数。
IEEE Transactions on Parallel and Distributed Systems (TPDS) 是并行与分布式计算领域的权威国际学术期刊,也是中国计算机学会CCF A类期刊。每季度出版一期,每期录用论文20篇左右,主要关注并行计算、分布式系统、高性能计算等领域的前沿研究。
(通讯员:袁正一)