LOGO LOGO
博士生段卓辉、赵进和硕士生谭杰的论文分别被SC 2021录用
时间:2021-08-26 17:32:13

近日,高性能计算领域的顶级国际会议SC 2021(The International Conference for High Performance Computing, Networking, Storage, and Analysis)录用结果揭晓,实验室博士生段卓辉的论文“Hardware-supported Remote Persistence for Distributed Persistent Memory”、 博士生赵进的论文“LCCG: A Locality-centric Hardware Accelerator for High Throughput of Concurrent Graph Processing”和硕士生谭杰的论文“Whale: Efficient One-to-Many Data Partitioning in RDMA-assisted Distributed Stream Processing Systems”均被录用。

近年来,持久性内存和远程直接内存访问RDMA技术在数据中心环境中得到了广泛的应用。然而,持久RDMA操作和RDMA更新的可见性在远程持久内存系统中还没有得到充分的研究。由于RDMA网络接口卡中存在易失性缓存,持久性内存和RDMA的结合对保证远程数据持久性提出了重大挑战。为此,段卓辉在论文中对现有的基于RDMA的RPC通信系统及其性能差异进行了比较研究,在总结经验教训的基础上,设计了几种硬件支持的RDMA刷新原语。这些刷新原语将易失性缓存中的数据刷新到持久存储器中。论文在上述刷新原语的基础上提出了持久RPC通信系统,并提供了快速故障恢复功能。基于真实NVM硬件的实验结果表明,相比现有研究,所提出的RDMA刷新原语可以将RPC系统吞吐量提高90%,并减少49%的第99百分位延迟。此外实验研究结果也为基于RDMA的分布式持久内存系统的设计提供了重要的指导意见。

随着实际应用对图分析需求的快速增加,数据中心上往往并发地运行着大量图分析任务来对其同一底层图进行分析。然而,在支持并发图分析任务时,现有的硬件/软件解决方案仍面临着不规则的图遍历和激烈的资源争用等问题。为此,赵进在论文中提出了一个以数据局部性为中心的并发图处理加速器LCCG,从而提高并发图分析任务在众核处理器上的吞吐率。具体而言,论文在加速器设计中提出了一种新颖的拓扑感知执行方法,其根据图拓扑来动态协调并发任务的图遍历,从而充分整合并发任务的图数据访问。LCCG通过在更多任务之间共享相同图数据的访问,并且合并这些任务的顶点状态访问来提高核的利用率。实验结果显示,本加速器相对于最好的软件并发图处理系统能够获得11.3-23.9倍的性能提升,而只带来0.5%的额外硬件开销。

为支撑高时效流式大数据处理,分布式流处理系统遵循数据并行的原理,实现了各类数据划分策略。其中,一对多数据划分策略(例如,Apache Storm中的All Grouping策略)在各种大数据应用程序中起着重要作用。在一对多数据划分策略中,上游处理实例将生成的元组发送到下游大量并行实例,在现有流处理框架面向实例instance-oriented的通信机制下,导致了密集的序列化和跨服务器通信开销。通过实验表明,随着并行度提高,系统存在严重的CPU 过载瓶颈。针对此问题,谭杰基于RDMA零拷贝网络设计了一种高效的一对多数据划分机制,并基于此实现了分布式流处理系统Whale。首先,提出了一种面向动态流的RDMA-assisted的非阻塞流多播协议,显著降低了分布式流处理系统中上游实例的CPU工作负载。其次,设计并实现了一种worker-oriented的通信机制替换了现有主流分布式流处理系统中instance-oriented的通信机制,通过采用batch-and-dispatch的通信模式,显著降低了一对多数据划分中的冗余序列化和传输。Whale系统已发布在国际开源社区中(https://github.com/CGCL-codes/Whale)。实验结果表明,相对于国际上流处理系统的最新工作,Whale将系统吞吐率提升了56.6倍,处理延迟降低了97%。

SC是高性能计算领域的顶级国际会议,本届会议共收到365篇投稿,共录用86篇论文,录用率约为23.6%。


(通讯员:段卓辉、赵进、谭杰)