近日,2023级硕士生宛光华(导师万瑶副教授)的论文“Does Your Neural Code Completion Model Use My Code? A Membership Inference Approach”被 ACM Transactions on Software Engineering and Methodology(TOSEM)期刊录用。
该论文聚焦于当前基于深度学习的自动化代码补全技术所引发的安全风险。此类模型常利用从开源社区收集的海量代码进行训练,这不仅可能触及代码版权与许可证合规性问题,还存在模型意外记忆并泄露训练数据中私有或敏感信息的风险。然而,由于这些模型通常以“黑盒”形式提供服务,用户难以核实自己的代码是否被用于特定模型的训练。针对这一关键问题,研究团队创新性地提出了一种名为CODEMI的成员推断方法。该方法巧妙地将成员推断技术应用于复杂的代码补全场景,通过训练“影子模型”模拟目标模型行为,并分析模型输出的排序特征,最终构建分类器以有效判断给定代码片段是否为目标模型的训练数据。实验结果证实,CODEMI能有效识别部分代码模型的训练数据来源,为保护开发者代码知识产权、评估和防范代码模型数据泄露风险提供了重要的技术手段,同时也指出了在更大型代码模型上进行此类分析的挑战与未来研究方向。
ACM Transactions on Software Engineering and Methodology(TOSEM)是软件工程领域的国际顶级学术期刊,也是中国计算机学会(CCF)推荐的 A 类期刊。该期刊致力于发表软件工程方法论、过程、工具和理论方面的基础性、创新性的高质量研究成果,在学术界和工业界均享有极高声誉。
(通讯员:宛光华)