LOGO
实验室四篇论文被IEEE ICDCS 2018录用
时间:2018-04-26 16:47:44

实验室四篇论文被IEEE ICDCS 2018录用

 

近日,国际学术会议The 38th IEEE International Conference on Distributed Computing Systems (ICDCS 2018)录用结果揭晓,实验室有4篇论文被录用,分别是:博士生姜炜祥的论文“Non-IT Energy Accounting in Virtualized Datacenter”、戴小海的论文“Towards A Novel Architecture for Enabling Interoperability Amongst Multiple Blockchains硕士生李肖瑶的论文DHL: Enabling Flexible Software Network Functions with FPGA Acceleration”、柳密的论文“TurboStream:Towards Low-Latency Data Stream Processing”。

姜炜祥的论文“Non-IT Energy Accounting in Virtualized Datacenter”主要研究了数据中心中非IT设施能耗在虚拟机之间的分摊与计量问题。能耗管理是数据中心实现节能减排和降低成本的重要技术基石。在整个数据中心中,制冷、电力系统等非IT设施能耗占比高达30~50%。然而,由于这些非IT设施由大量承载各种应用负载的IT设备共享和使用,并且IT能耗和非IT能耗之间存在非线性增长的关系,因此难以进行细粒度的非IT能耗测量及有效的能耗管理。论文巧妙地运用博弈论,将数据中心中非IT设施能耗在虚拟机层面进行细粒度划分的复杂工程问题提炼转化为简洁的成本分配问题,从而运用经济学中著名的夏普利值(Shapley Value)方法为数据中心中大量的动态虚拟机的非IT能耗实现公平高效的计量。针对夏普利值计算在大规模数据中心中复杂度极高O2^N)的瓶颈,论文通过对IT能耗和非IT能耗之间的行为模式进行实测与分析,设计了高效的降维方法,将计算复杂度大幅降低至ON)。基于真实数据中心能耗数据驱动的实验验证,论文所提出的降维方法与理论最优的夏普利值相比,最大误差只有6.97%,能够有效应用于实际数据中心系统。

戴小海的论文“Towards A Novel Architecture for Enabling Interoperability Amongst Multiple Blockchains”主要研究区块链的跨链交互问题。随着区块链技术的飞速发展,区块链系统的应用场景和体系结构趋于多样化。为促进不同区块链之间的信息流通、打破链间通信壁垒,如何设计区别于传统区块链结构,具备灵活高效且安全可扩展特征的跨链交互架构成为亟需解决的关键问题。鉴于“跨链交互”目前在学术界和工业界尚缺乏正式定义,论文首先对该问题进行了严格定义,并对现有跨链交互方案进行了分析。针对现有方案中,被动模式易于实现、但轮询开销较大,而主动模式的链结构为满足特定功能要求而被限制其适用范围等问题,提出了一种新型分层区块链架构,设计了一种MMR数据传输方案,用以降低被动式跨链交互中原有PBR方案的轮询开销。模拟实验结果表明在8条目标链读取同一条源链数据时,MMR方案可同时将源链的数据传输大小和CPU使用率降低为PBR方案的1/8

李肖瑶的论文“DHL: Enabling Flexible Software Network Functions with FPGA Acceleration”主要设计和实现了面向软件网络功能(NFV)加速的FPGA-CPU协同设计框架(包括一体化的硬件平台和软件库),为广大研发人员提供了通用且易编程的最新实用工具。网络功能虚拟化技术旨在将多种多样的网络功能从昂贵固化的专用网元设备解耦到通用服务器上,以软件方式灵活部署与运行。然而,当前软件网络功能在进行深度包处理时,需要消耗大量的CPU内核资源才能达到线速度,而若将整个网络功能部署到FPGA上则会造成不切实际的资源浪费。此外,网络功能的更改需要耗费数小时生成新的FPGA加速程序,阻碍网络功能的快速部署。针对上述问题,论文首次提出和实现了基于动态硬件库(DHL)的FPGA-CPU协同设计框架:(1)将FPGA中的深度包处理加速模块抽象成硬件函数并提供DHL编程API,使同类的网络功能复杂逻辑统一部署在FPGA中加速,而简单逻辑仍协同运行在CPU中,实现灵活、快速、高性价比的部署,具有通用性和易编程的优势;(2)通过有机结合无锁通信队列、用户态I/ONUMA感知的内存分配、批处理和轮询等实用优化技术,最大化DHL整体框架的网络性能。实验验证了DHL框架相比领域内基于纯CPU和纯FPGA加速系统的优势。

柳密的论文“TurboStream:Towards Low-Latency Data Stream Processing”主要设计和实现了面向低延时的流数据处理(DSP)系统TurboStream。在实践中发现,操作符间的延时占到DSP应用总处理延时的86%以上,TurboStream专为解决操作符间通信所带来的高延时的问题而设计,引入了两个功能互补的组件:(1)改进的IPC框架。DSP系统广泛采用的IPC框架Netty因过多的内存拷贝操作而不适用于本地进程间的数据传输,尤其是在低延时的DSP系统中。改进后的IPC框架在内部集成了一个面向DSP的堆外流式环形字节码缓冲区OSRBuffer。当在本地进程的操作符之间传输消息时,它可以将内存拷贝的次数降到最低,同时减少单个消息在缓冲区中的等待时间。(2)粗粒度调度器。OSRBuffer的效果受限于本地进程间的通信量占总通信量的比例。为了突破这种局限,进一步提出了粗粒度调度器。它在调度之前会根据操作符实例间的数据依赖关系和运行时的通信量信息合并操作符实例,再将合并后的操作符实例分配到节点,以减少节点间的IPC通信量。鉴于阿里巴巴JStorm在工业界的广泛应用以及其在低延时方面的优异表现,TurboStream的原型基于JStorm实现。实验证明,与JStorm相比,TurboStreamDSP的平均处理延时降低了83.23%。

ICDCS是分布式计算与系统领域享有盛誉和重要影响力的顶级国际学术会议,本届ICDCS在全球378篇投稿中录用78篇论文,录用率仅约20%

 

通讯员;姜炜祥、戴小海、李肖遥、柳密

 更多 更多 更多 更多