LOGO LOGO
实验室博士后郑龙、博士生刘博、周放的论文均被ACM Transactions on Architecture and Code Optimization录用
时间:2019-02-26 09:19:18

实验室博士后郑龙、博士生刘博、周放的论文均被ACM Transactions on Architecture and Code Optimization录用

实验室博士后郑龙、博士生刘博、周放的论文被国际学术期刊ACM Transactions on Architecture and Code Optimization录用,分别是:博士后郑龙的论文”Efficient and Scalable Graph Parallel Processing With Symbolic Execution”,博士生刘博的论文”Layer-Centric Memory Reuse and Data Migration for Extreme-Scale Deep Learning on Many-Core Architectures”,博士生周放的论文”Dual-Page Checkpointing: An Architectural Approach to Efficient Data Persistence for In-Memory Applications”

郑龙的论文”Efficient and Scalable Graph Parallel Processing With Symbolic Execution”主要研究了基于符号执行的分布式图计算问题。由于图数据的复杂依赖特征,现有图处理引擎通常存在着较显著的同步和通信开销。针对数据依赖对计算并行性的影响,论文提出了一种基于符号执行的新型图计算引擎,允许使用符号抽象替代准确值参与运算,实现了数据依赖并行的图计算模式。结合符号迭代引擎设计中并行攫取、符号扩展、以及聚合开销等难题,进而提出了激活诱导的图划分技术、组关联符号赋值、以及异步式符号聚合的协同运行机制。论文包括如下创新点:(1)对图数据复杂依赖的特性进行了广泛的研究,重新审视现有图计算系统可伸缩性问题;(2)提出了符号式图计算迭代模式,实现了图计算的高度并行,提高了图计算的扩展效率,同时保证图计算语义的正确性和图算法的收敛性;(3)提出新型图计算引擎,以充分发挥符号迭代的并行性潜力。对大量真实图数据和算法的测试结果表明,符号迭代引擎明显提高了图计算的性能水平,且加速效果随着处理规模的增加显著提升。

刘博的论文”Layer-Centric Memory Reuse and Data Migration for Extreme-Scale Deep Learning on Many-Core Architectures”主要研究了深度学习运行时内存消耗问题。当今深度学习是以大规模的训练数据以及复杂模型作为支撑,其模型训练过程需要大容量的GPU内存才能有效执行。但是,目前GPUDRAM 的容量扩展无法满足训练过程中内存消耗日益增长的要求。因此我们提出一种基于模型层敏感的内存复用方法Layrub,以节约GPU显存消耗。论文包括如下创新点:(1)提出针对模型层内中间数据复用的策略,使得训练过程的激活值梯度数据能够复用其对应激活值的内存空间。(2)提出针对模型跨层数据复用的策略,以层为中心按需分配内存空间,并且利用远端CPU的内存作为数据迁移复用的缓冲区域。该策略能够显著的节约内存开销,在内存复用后,内存分配最多只保留常数级的空间。(3)由于两种策略分别从层内及跨层两种维度进行数据复用,我们可知,根据上文提到的数据访问序列重排规则,并保证正确计算序列的情况下,两种策略可以混合使用,能够达到更好地内存节约效果,兼顾多种形态的神经网络。

周放的论文”Dual-Page Checkpointing: An Architectural Approach to Efficient Data Persistence for In-Memory Applications”主要研究了内存持久化的问题。本文提出了一种新的内存数据持久化方案,利用高频率、全系统、硬件级checkpoint技术,保证应用执行的Crash Consistency,提供内存数据持久化,以降低系统复杂性与软件开销,大幅提升访存性能。为保证应用执行过程中的Crash Consistency,传统LoggingCoW技术会产生大量的NVM写操作,形成一个性能瓶颈;为减少对NVM的写操作,最新研究使用更细的粒度写NVM,但会产生大量元数据开销,形成了另一个性能瓶颈。我们提出新的内存检查点技术Dual-Page Checkpointing,打破了两个瓶颈间的Tradeoff,同时实现了最小化NVM写次数与最少的元数据开销。与传统软件库系统相比,Dual-page CheckpointingTransaction操作吞吐率提升13.6倍;与最新硬件系统相比,能够减少34%NVM写,实现1.28倍的性能提升。

ACM Transactions on Architecture and Code Optimization主要关注硬件、软件以及系统相关的体系结构及代码优化方面的研究。该期刊每年出版4期,每期录用论文约10篇左右,2017年影响因子是1.313。收录的原创性文章(非会议扩展版本)将被邀请到在国际会议High Performance and Embedded Architecture and CompilationHiPEAC)上作报告。HiPEAC关注方向主要为系统和体系结构领域,包括运行时、编译、并行和高性能计算等等,是该领域的著名国际会议,在国内外学术界有着很高的影响。

通讯员:郑龙、刘博、周放