近日,实验室博士黄卓的论文“CBuild: Cluster-oriented Collaborative Image Building for Containers”被 IEEE Transactions on Computers (TC) 期刊录用。
众多计算平台已广泛采用容器作为轻量级的虚拟化执行环境。镜像是用于创建容器的轻量级、独立、可执行的软件包,包含应用程序运行所需的所有内容,包括代码、运行时、库、环境变量、配置文件等。在构建容器镜像时,需要逐行解析脚本(如Dockerfile)并从远程下载大量数据(如基础镜像、软件包等)。尽管镜像层级共享机制能够减少需构建的层数,但在分布式环境下,该机制的效率较低,因为镜像间的层共享概率较低(不足 25%),导致大量非共享层仍需从远程下载数据,造成额外开销。为此,文章基于真实环境中的数据,对分布式环境下的镜像构建数据下载情况进行了全面分析。研究发现:1)超过70%的下载文件是重复的,其中很大一部分存在于共享层相关的非共享层中,且通常成组下载。2)文件的访问热度具有偏向性,近30%的文件被重复使用超过200次,并且超过46%的文件在极短时间内被多次下载。这些发现揭示了镜像构建过程中冗余数据的访问特征,据此,文章提出cBuild,一个分布式文件缓存系统,用于在集群环境中最小化镜像数据的下载开销。具体而言,cBuild采用基于网络命名空间的无侵入拦截机制,避免直接检测构建指令对镜像的修改,从而实现跨节点的镜像数据共享。此外,cBuild结合镜像层中重复文件的分布特性,均衡地分布镜像文件,防止因热点节点造成的数据传输瓶颈,并通过层感知的搜索策略快速定位所需文件。实验结果表明,cBuild构建速度最高提升15.3倍,数据下载量减少80%,有效加速了容器镜像的构建过程。
IEEE Transactions on Computers是计算机体系结构领域的顶级期刊之一,属于中国计算机学会CCF A类期刊,当前影响因子为3.7。
(通讯员: 黄卓)