实验室博士后郑龙、博士生刘博、周放的论文均被ACM Transactions on Architecture and Code Optimization录用-服务计算技术与系统教育部重点实验室

实验室博士后郑龙、博士生刘博、周放的论文均被ACM Transactions on Architecture and Code Optimization录用

时间：2019-02-26 09:19:18

实验室博士后郑龙、博士生刘博、周放的论文均被ACM Transactions on Architecture and Code Optimization录用

实验室博士后郑龙、博士生刘博、周放的论文被国际学术期刊ACM Transactions on Architecture and Code Optimization录用，分别是：博士后郑龙的论文”Efficient and Scalable Graph Parallel Processing With Symbolic Execution”，博士生刘博的论文”Layer-Centric Memory Reuse and Data Migration for Extreme-Scale Deep Learning on Many-Core Architectures”，博士生周放的论文”Dual-Page Checkpointing: An Architectural Approach to Efficient Data Persistence for In-Memory Applications”。

郑龙的论文”Efficient and Scalable Graph Parallel Processing With Symbolic Execution”主要研究了基于符号执行的分布式图计算问题。由于图数据的复杂依赖特征，现有图处理引擎通常存在着较显著的同步和通信开销。针对数据依赖对计算并行性的影响，论文提出了一种基于符号执行的新型图计算引擎，允许使用符号抽象替代准确值参与运算，实现了数据依赖并行的图计算模式。结合符号迭代引擎设计中并行攫取、符号扩展、以及聚合开销等难题，进而提出了激活诱导的图划分技术、组关联符号赋值、以及异步式符号聚合的协同运行机制。论文包括如下创新点：（1）对图数据复杂依赖的特性进行了广泛的研究，重新审视现有图计算系统可伸缩性问题；（2）提出了符号式图计算迭代模式，实现了图计算的高度并行，提高了图计算的扩展效率，同时保证图计算语义的正确性和图算法的收敛性；（3）提出新型图计算引擎，以充分发挥符号迭代的并行性潜力。对大量真实图数据和算法的测试结果表明，符号迭代引擎明显提高了图计算的性能水平，且加速效果随着处理规模的增加显著提升。

刘博的论文”Layer-Centric Memory Reuse and Data Migration for Extreme-Scale Deep Learning on Many-Core Architectures”主要研究了深度学习运行时内存消耗问题。当今深度学习是以大规模的训练数据以及复杂模型作为支撑，其模型训练过程需要大容量的GPU内存才能有效执行。但是，目前GPU上DRAM 的容量扩展无法满足训练过程中内存消耗日益增长的要求。因此我们提出一种基于模型层敏感的内存复用方法Layrub，以节约GPU显存消耗。论文包括如下创新点：（1）提出针对模型层内中间数据复用的策略，使得训练过程的激活值梯度数据能够复用其对应激活值的内存空间。（2）提出针对模型跨层数据复用的策略，以层为中心按需分配内存空间，并且利用远端CPU的内存作为数据迁移复用的缓冲区域。该策略能够显著的节约内存开销，在内存复用后，内存分配最多只保留常数级的空间。（3）由于两种策略分别从层内及跨层两种维度进行数据复用，我们可知，根据上文提到的数据访问序列重排规则，并保证正确计算序列的情况下，两种策略可以混合使用，能够达到更好地内存节约效果，兼顾多种形态的神经网络。

周放的论文”Dual-Page Checkpointing: An Architectural Approach to Efficient Data Persistence for In-Memory Applications”主要研究了内存持久化的问题。本文提出了一种新的内存数据持久化方案，利用高频率、全系统、硬件级checkpoint技术，保证应用执行的Crash Consistency，提供内存数据持久化，以降低系统复杂性与软件开销，大幅提升访存性能。为保证应用执行过程中的Crash Consistency，传统Logging与CoW技术会产生大量的NVM写操作，形成一个性能瓶颈；为减少对NVM的写操作，最新研究使用更细的粒度写NVM，但会产生大量元数据开销，形成了另一个性能瓶颈。我们提出新的内存检查点技术Dual-Page Checkpointing，打破了两个瓶颈间的Tradeoff，同时实现了最小化NVM写次数与最少的元数据开销。与传统软件库系统相比，Dual-page Checkpointing的Transaction操作吞吐率提升13.6倍；与最新硬件系统相比，能够减少34%的NVM写，实现1.28倍的性能提升。

ACM Transactions on Architecture and Code Optimization主要关注硬件、软件以及系统相关的体系结构及代码优化方面的研究。该期刊每年出版4期，每期录用论文约10篇左右，2017年影响因子是1.313。收录的原创性文章（非会议扩展版本）将被邀请到在国际会议High Performance and Embedded Architecture and Compilation（HiPEAC）上作报告。HiPEAC关注方向主要为系统和体系结构领域，包括运行时、编译、并行和高性能计算等等，是该领域的著名国际会议，在国内外学术界有着很高的影响。

通讯员：郑龙、刘博、周放