吴月明博士和硕士生赵洧的论文分别被ICSE 2022录用-服务计算技术与系统教育部重点实验室

吴月明博士和硕士生赵洧的论文分别被ICSE 2022录用

时间：2021-12-09 16:28:36

近日，软件工程国际会议（International Conference on Software Engineering, ICSE 2022）录用结果揭晓，实验室吴月明博士（邹德清教授指导）和硕士生赵洧（万瑶博士指导）的论文分别被ICSE 2022录用，吴月明的论文题目为“VulCNN: An Image-inspired Scalable Vulnerability Detection System”，赵洧的论文题目为“What Do They Capture? - A Structural Analysis of Pre-Trained Language Models for Source Code ”。

由于深度学习可以自动从源代码中学习特征，因此它被广泛应用于源代码漏洞检测。为了实现可扩展的漏洞扫描，一些研究通过将源代码视为文本来直接处理源代码。为了实现精确的漏洞检测，其他方法将程序语义提炼为图表征并采用图分析来检测漏洞。在实践中，基于文本的技术可扩展性高，但由于缺乏程序语义而不准确。基于图的方法准确但由于高开销的图分析导致可扩展性低。受启发于现有基于深度学习的图像分类技术，它们能够高效准确地分析数百万张的图像，吴月明博士在论文中设计了一种基于图片的技术来进行漏洞检测。具体而言，文章提出了一种可以在保留程序细节的同时有效地将函数的源代码转换为图片的技术。实现了一个自动化的系统VulCNN，并在13,687个漏洞函数和26,970个正常函数上进行了实验评估。实验结果显示VulCNN优于相比较的工具，并能够完成超过2,500万行代码的漏洞扫描。通过分析扫描报告，最终发现了NVD未报告的73个漏洞。

近年来，随着BERT等自然语言表示学习模型的出现，越来越多预训练技术用于源代码的表示与理解（例如CodeBERT，GraphCodeBERT）。尽管基于Transformer的预训练代码表示模型取得了不错的性能，然而关于其可解释性仍然缺乏研究。赵洧的论文围绕“到底代码预训练表示模型学到了什么？”这个科学问题展开研究。具体地，从三个不同的视角对以CodeBERT和GraphCodeBERT为代表的源代码预训练模型进行了全面的结构化分析，即注意力分析（Attention analysis）、词向量探测分析（Probing on the word embedding），以及语法树归约（Syntax tree induction）。在该论文中，揭示了几个可能启发未来研究的发现:（1）代码表示预训练模型的中间表示向量中蕴含了代码的语法结构；（2）预训练模型能够通过注意力机制捕捉到代码的语法信息。研究结果表明，在代码表示学习的过程中考虑代码语法结构有利于提升模型性能。

ICSE 是展示和讨论软件工程领域最新和重要技术研究的旗舰会议，也是中国计算机学会（CCF）推荐的A类会议。本届会议共收到751篇投稿，录用197篇论文，录取率约为26%。

（通讯员：吴月明、赵洧）