LOGO LOGO
博士生吴浩和田冰的论文分别被系统领域国际顶会USENIX ATC 2024录用
时间:2024-05-07 09:01:09

近日,USENIX年度技术会议(USENIX Annual Technical Conference, ATC 2024)录用结果揭晓,实验室2020级博士生吴浩(导师吴松教授)和2022级博士生田冰(导师刘海坤教授)的论文分别被录用。

吴浩的论文题目是“StreamBox: A Lightweight GPU SandBox for Serverless Inference Workflow”。由于深度学习(Deep Learning,DL)推理应用中负载动态变化和延迟敏感等特点,DL推理任务很适合在服务器无感系统中部署。然而,现有的服务器无感系统将function通过独立的GPU runtime(即, CUDA context)隔离开,这对于短生命周期和细粒度的function来说过于笨重,导致了高启动延迟、高显存占用和高通信开销的问题。为此,文章提出了StreamBox,一种适用于服务器无感推理工作流的轻量GPU运行时。StreamBox开发了GPU stream作为function运行时的潜力,允许来自同一个工作流里的function共享GPU运行时。还提出多项关键技术使得stream更好的应用于服务器无感推理系统:精细和弹性的内存管理、透明且高效的function间通信以及stream间PCIe带宽隔离。实验结果表明,对标现有的服务器无感推理系统,StreamBox最多可减少82%的GPU显存占用,吞吐量可提高6.7倍。

田冰的论文题目是“Scalable Billion-point Approximate Nearest Neighbor Search Using SmartSSDs”。高维向量的近似最近邻搜索(Approximate Nearest Neighbor Search, ANNS)在数据库和机器学习应用中越来越重要。现有ANNS算法都需要TB级内存来存储十亿级数据集的索引,使得部署这些算法来进行高性能搜索的成本极其高昂。新兴的智能固态硬盘(SmartSSD)技术基于近数据处理机制为实现可扩展的ANNS提供了机会。然而,在多个SmartSSD上直接部署现有ANNS算法仍面临诸多挑战。为此,该论文提出多项关键技术:首先,提出了一种“主机CPU + SmartSSDs”的高效协同架构,能够显著减少SmartSSD上的数据访问和计算;接着,提出了动态任务调度机制,基于优化的数据布局实现了多个SmartSSD之间的负载均衡和数据重用;最后,提出了基于学习的分区裁剪算法,以消除SmartSSD上不必要的计算。论文对标现有最先进的基于可计算存储的ANNS系统——CSDANNS,可取得最高10.7倍的性能提升。

ATC是系统结构领域最重要的国际会议之一,也是中国计算机学会(CCF)推荐的A类会议。本届会议共收到488篇投稿,共录用77篇论文,录用率约为15.8%。


(通讯员:吴浩、田冰)