LOGO LOGO
实验室三篇论文被软件工程国际顶会ESEC/FSE 2023录用
时间:2023-07-28 14:55:20

近日,博士生杜小虎(导师文明副教授)的两篇论文和硕士生冯思乐(导师邹德清教授)的一篇论文均被第31届ACM 欧洲软件工程联合会议和软件工程基础研讨会(The 31st ACM Joint European Software Engineering Conference and Symposium on the Foundations of Software Engineering, ESEC/FSE 2023)录用。

杜小虎的第一篇论文题目为“An Extensive Study on Adversarial Attack against Pre-trained Models of Code”,该论文广泛研究了针对预训练代码模型的对抗攻击。预训练代码模型在许多关键任务的性能达到了最佳。然而,这些模型可能很容易受到对抗攻击的影响,对抗攻击会显著降低模型的准确性,并进一步引发安全问题。虽然现有几种攻击方法在代码上是有效的,但这些方法在不同的代码智能任务上的有效性、效率和对抗样本质量还不清楚。为了弥补这一差距,论文从上述三个角度对五种领先的对抗攻击方法进行了系统分析。结果显示,这五种方法都未能在这三个方面达到平衡。特别是,攻击成功率高的方法通常会非常耗时,并且生成的对抗代码通常缺乏自然性,反之亦然。为了解决这些问题,论文探索了在不同上下文中扰动标识符对模型性能的影响,并发现在不同代码语句中替换标识符会不同程度的降低模型性能且不同任务上的代码语句优先级存在差异。基于这些发现,论文提出了一种新方法,该方法对各种任务的不同代码语句进行优先级排序,并利用集束搜索来生成对抗样本。评估结果表明,这种方法相较于最先进的攻击方法,有效性增加了21.30%,效率提高了14.62%,同时保留了对抗样本的自然性。

杜小虎的第二篇论文题目为“Understanding the Bug Characteristics and Fix Strategies of Federated Learning Systems”,该论文研究了联邦学习系统缺陷的特征与修复策略。联邦学习(Federated Learning,FL)是一种新兴的机器学习范式,旨在解决数据孤岛问题。为了保护隐私,FL系统根据个人设备上私密保存的去中心化数据来训练机器学习模型和深度神经网络,并且越来越多地在金融和医疗保健等关键任务领域得到采用。然而,FL 系统中的缺陷不可避免,并可能导致灾难性后果,例如财务损失、不当的医疗决策以及违反数据隐私条例。 虽然最近许多工作广泛研究了机器学习系统中的缺陷,但目前还没有针对FL系统独特缺陷的研究。为了填补这一空白,论文在软件项目托管平台GitHub和IT问答网站StackOverflow上收集了六种流行FL框架(Tensorflow Federated、PySyft、FATE、Flower、PaddleFL和Fedlearner)的395个真实缺陷,然后手动分析了它们的症状和影响、容易出现缺陷的阶段、缺陷的根本原因和修复策略,并报告了一系列发现和启示。最后,论文根据这些发现和启示为 FL 系统开发人员提供了可能的建议或解决方案。

冯思乐的论文题目为“Tritor: Detecting Semantic Code Clones by Building Social Network-based Triads Model”。代码克隆检测指的是发现两个代码片段在功能上的相似性,代码克隆会增加维护成本,甚至导致漏洞传播,对软件安全造成负面影响。因此,随着软件工程的发展,这种检测变得越来越重要。近年来,已经提出了许多代码克隆检测方法,其中包括能够检测语义代码克隆的基于树的方法。然而,由于树形结构复杂,这些方法很难应用于大规模克隆检测。论文提出了Tritor,一个新的基于语义增强抽象语法树的可扩展语义代码克隆检测器。该方法的关键思想是将控制流和数据流细节添加到原始树中,并将语义增强后的树视为社交网络。然后,建立一个基于社会网络的三元组模型,通过分析网络中不同类型的三元组来收集两种方法之间的相似性特征。获得所有特征后,用它们来训练基于机器学习的代码克隆检测器。实验结果表明,Tritor在Google Code Jam数据集上能够达到92%的F1分数,在BigCloneBench数据集上能够达到98%的F1分数,效果优于现有的大部分代码克隆检测工具。在可扩展性方面, Tritor比目前另一种最先进的基于树的代码克隆检测器 ASTNN 快约39倍。

ESEC/FSE与ICSE、ISSTA和ASE并称为软件工程领域的四大顶级会议,在软件工程领域具有举足轻重的地位。该会议每年汇聚了来自学术界和工业界的研究者和从业者,共同探讨自动化分析、设计、实现、测试和维护大型软件系统的基础、技术和工具。ESEC/FSE 2023共接收到467篇投稿,共录用124篇论文,录用率约为26.5%。

(通讯员:杜小虎、冯思乐)