博士生杜小虎、毕彰谦的论文分别被计算语言学领域顶会ACL 2024录用-服务计算技术与系统教育部重点实验室

博士生杜小虎、毕彰谦的论文分别被计算语言学领域顶会ACL 2024录用

时间：2024-05-20 17:42:57

近日，第62届国际计算语言大会（The 62nd Annual Meeting of the Association for Computational Linguistics，ACL 2024）录用结果揭晓，2021级博士生杜小虎（导师文明副教授）和2022级博士生毕彰谦（导师金海教授）的论文作为Findings长文录用。

杜小虎的论文题目为“Generalization-Enhanced Code Vulnerability Detection via Multi-Task Instruction Fine-Tuning”。近年来，利用代码预训练模型进行漏洞检测的研究取得了显著进展。然而，这些模型在泛化能力上仍面临重大挑战。它们往往只学习源代码到标签的表面映射，而未能深入理解代码漏洞的根本原因。为了解决这个问题，文章提出了 VulLLM，一种将多任务学习与大语言模型相结合的新颖方法。首先，VulLLM基于静态分析工具从漏洞补丁中提取的漏洞特征（包含漏洞行及其相关的数据/控制依赖行）及漏洞对应的CVE描述，利用GPT-4并采用自验证思维链构建漏洞解释任务，多轮验证使得生成的漏洞解释更加准确。然后VulLLM基于构建的漏洞解释任务和原本的二分类漏洞检测任务，在Llama-2、CodeLlama和StarCoder基础上做多任务指令微调构建漏洞检测模型。其中基于CodeLlama-13B微调的模型较当前SOTA方法F1值提高了8%，在分布外数据集的F1值提升了8.58%，取得了更好的泛化性，同时鲁棒性提升了68.08%。

毕彰谦的论文题目为“Iterative Refinement of Project-Level Code Context for Precise Code Generation with Compiler Feedback”。随着人工智能应用的发展，深度学习模型在各个领域内得到了广泛应用。其中，基于大语言模型的代码生成技术在解决编程问题上取得了显著进展。然而在软件项目开发中，大语言模型往往难以准确捕捉代码的项目上下文，即项目内定义的类、方法和数据结构。这降低了代码生成工具在实际软件开发中的可用性。文章提出了一种基于编译反馈的项目级代码生成方案——CoCoGen，对端到端代码生成问题逐步分解，并在每一步调用编译器对生成代码进行检查，基于编译诊断信息检索代码仓库，实现项目上下文感知的代码生成。实验结果表明，基于GPT-3.5-Turbo的CoCoGen方法在类依赖、文件依赖和项目依赖数据集上相较当前SOTA方法的Pass@10提高了7.27, 10.30, 17.39，且总编译错误数量下降了79.6%，生成了更准确的代码建议。

ACL由国际计算语言学协会主办，每年举办一次。据谷歌学术计算语言学刊物指标显示，ACL影响力位列本领域第一，是CCF推荐的计算语言学方面唯一的A类会议。该会议近五年的录用率约为28.0%。

（通讯员：杜小虎、毕彰谦）