LOGO LOGO
实验室博士生张凡的论文被TC录用
时间:2020-09-04 16:36:56

近日,实验室博士生张凡的论文被 IEEE Transactions on Computers (TC) 录用,论文题目为“PStream: A Popularity-aware Differentiated Distributed Stream Processing System ”。

为了对实时、快速、连续的流式大数据进行近实时的处理,以保证大数据应用的高时效性需求,大规模分布式流处理系统应运而生。现有的分布式流处理系统综合利用了多种并行计算技术,通过建立处理流水线拓扑、处理任务多实例化、数据分组划分等方式来保证系统处理的高并行、高吞吐和低延时。然而现有的分布式流处理系统在对数据进行分组调度以划分工作负载时,常采用哈希或轮询等一刀切的策略。在面向高倾斜分布的真实数据时,或会导致各个处理实例间严重的负载不均,降低系统的高并行计算效率,制约系统的吞吐率;或产生线性上升的存储和聚合开销,使得系统面临不可扩展的问题。

针对以上问题,论文指出高效的分布式流处理的关键是能够对不同热度的数据进行即时的识别和有效的区分调度。对少量但高频出现并带来主要工作负载的热门数据应当采用轮询的策略进行划分,在不产生明显存储开销的同时保证系统处理的高并行性;对大量非热门数据应当采用哈希划分策略,避免产生冗余的存储开销,保证系统的扩展性。为此,论文设计了高时效大数据流处理系统PStream。论文的主要创新点如下:1)提出并实现了一种基于流数据热度区分调度的分布式流数据处理系统PStream;2)为了有效处理热点流数据项的实时动态变化,以及流处理系统中低时空复杂度的需求,PStream设计了一种轻量级基于概率计数的技术,以高效的对流数据热度进行统计和实时热门数据项识别;3)针对流数据分布多样性和快速变化的特征,设计了一种自适应热点数据阈值调整算法,以平衡系统的处理时间与空间的使用效率。通过使用大规模真实数据对PStream的性能进行了评估,相对于当前最新的流处理系统,PStream显著提升了系统吞吐,并降低了平均处理延时。

IEEE Transactions on Computers期刊每月出版一期,每期录用论文12篇左右,今年的影响因子是2.711,主要关注计算机组织和体系结构、操作系统、软件系统、实时系统、嵌入式系统等方面的研究。




(通讯员:张凡)