近日,2022级博士生吴雨濛(导师邹德清教授)的论文“VulInject: Multi-Type Samples Generation for Learning-Based Vulnerability Detection”被 ACM Transactions on Software Engineering and Methodology(TOSEM)期刊录用。
基于深度学习的源代码漏洞分析能够自动提取与漏洞相关的特征,大幅减少人工工作量,已成为漏洞检测领域的一种重要范式。然而,这类模型的有效性受到高质量漏洞数据有限的制约,这使得它们无法全面捕捉和学习各种漏洞模式。此外,带有特定漏洞类型标签的样本稀缺限制了当前模型仅能识别漏洞的存在,而无法提供关于其类别的详细见解。这种详细信息对于开发人员进行更快、更有效的漏洞诊断和修复至关重要。
为应对这些挑战,论文提出了VulInject,这是首个用于为深度学习漏洞检测自动生成多类型漏洞样本的工具。该工具从现有的漏洞补丁中系统地提取编辑模式,并将其应用于良性的开源项目中,从而合成与现实世界漏洞高度相似的真实漏洞代码样本。VulInject 还将结构化的静态分析与基于大型语言模型的语义推理相结合,建立了一种结构化的信息引导的语义理解范式,用于对生成样本的漏洞类型和漏洞触发位置进行精确且可解释的标注。实验结果表明,将这些生成的样本添加到现有数据集之后,最先进的二分类和多分类漏洞检测模型性能有了显著提升,其中二分类模型的 F1 分数提高了多达 13.50%,多分类模型则提高了 7.65%。
ACM Transactions on Software Engineering and Methodology(TOSEM)是软件工程领域的国际顶级学术期刊,也是中国计算机学会(CCF)推荐的 A 类期刊。该期刊致力于发表软件工程方法论、过程、工具和理论方面的基础性、创新性的高质量研究成果,在学术界和工业界均享有极高声誉。
(通讯员:吴雨濛)