LOGO LOGO
博士生杜小虎、毕彰谦的论文分别被计算语言学领域顶会ACL 2024录用
时间:2024-05-20 17:42:57

近日,第62届国际计算语言大会(The 62nd Annual Meeting of the Association for Computational Linguistics,ACL 2024)录用结果揭晓,2021级博士生杜小虎(导师文明副教授)和2022级博士生毕彰谦(导师金海教授)的论文作为Findings长文录用。

杜小虎的论文题目为“Generalization-Enhanced Code Vulnerability Detection via Multi-Task Instruction Fine-Tuning”。近年来,利用代码预训练模型进行漏洞检测的研究取得了显著进展。然而,这些模型在泛化能力上仍面临重大挑战。它们往往只学习源代码到标签的表面映射,而未能深入理解代码漏洞的根本原因。为了解决这个问题,文章提出了 VulLLM,一种将多任务学习与大语言模型相结合的新颖方法。首先,VulLLM基于静态分析工具从漏洞补丁中提取的漏洞特征(包含漏洞行及其相关的数据/控制依赖行)及漏洞对应的CVE描述,利用GPT-4并采用自验证思维链构建漏洞解释任务,多轮验证使得生成的漏洞解释更加准确。然后VulLLM基于构建的漏洞解释任务和原本的二分类漏洞检测任务,在Llama-2、CodeLlama和StarCoder基础上做多任务指令微调构建漏洞检测模型。其中基于CodeLlama-13B微调的模型较当前SOTA方法F1值提高了8%,在分布外数据集的F1值提升了8.58%,取得了更好的泛化性,同时鲁棒性提升了68.08%。

毕彰谦的论文题目为“Iterative Refinement of Project-Level Code Context for Precise Code Generation with Compiler Feedback”。随着人工智能应用的发展,深度学习模型在各个领域内得到了广泛应用。其中,基于大语言模型的代码生成技术在解决编程问题上取得了显著进展。然而在软件项目开发中,大语言模型往往难以准确捕捉代码的项目上下文,即项目内定义的类、方法和数据结构。这降低了代码生成工具在实际软件开发中的可用性。文章提出了一种基于编译反馈的项目级代码生成方案——CoCoGen,对端到端代码生成问题逐步分解,并在每一步调用编译器对生成代码进行检查,基于编译诊断信息检索代码仓库,实现项目上下文感知的代码生成。实验结果表明,基于GPT-3.5-Turbo的CoCoGen方法在类依赖、文件依赖和项目依赖数据集上相较当前SOTA方法的Pass@10提高了7.27, 10.30, 17.39,且总编译错误数量下降了79.6%,生成了更准确的代码建议。

ACL由国际计算语言学协会主办,每年举办一次。据谷歌学术计算语言学刊物指标显示,ACL影响力位列本领域第一,是CCF推荐的计算语言学方面唯一的A类会议。该会议近五年的录用率约为28.0%。

(通讯员:杜小虎、毕彰谦)