近日,第39届国际人工智能学术会议 (The 39th Annual AAAI Conference on Artificial Intelligence, AAAI 2025) 录用结果揭晓,2021级博士生杜小虎(导师文明副教授)、2023级博士生周子淇(导师姚德中副教授)和2022级硕士生侯宇翔(导师陆枫副教授)的论文均被录用。
杜小虎的论文题目为“Multi-Turn Jailbreaking Large Language Models via Attention Shifting”。大语言模型(Large Language Model,LLMs)在各种自然语言处理任务中取得了显著的性能,但也带来了安全威胁。研究人员通常通过红队测试和对齐过程来增强其安全性。为了有效生成红队测试数据,近期研究引入了基于多轮对话的越狱攻击。这些攻击旨在通过复杂上下文引导LLMs生成有害内容。然而,他们通常侧重于优化查询和升级毒性以构建对话,缺乏对LLMs固有脆弱性的深入分析。论文首先对单轮和多轮绕过攻击的差异进行了深入分析,发现成功的多轮越狱攻击可以有效分散LLMs对有害行为相关关键词的注意力。基于此,论文提出了ASJA——一种基于注意力转移的多轮越狱攻击方法。ASJA通过遗传算法迭代构造历史对话,基于越狱策略和未审查模型生成历史有害回复来转移LLMs注意力。实验结果表明,ASJA将模型回复的危害性提高了44.91%,并将有害回复的相关性提高了 34.02%。ASJA强调了在多轮对话场景中增强LLMs注意力机制的鲁棒性,以实现更好防御的重要性。
周子淇的论文题目为“NumbOD: A Spatial-Frequency Fusion Attack Against Object Detectors”。随着深度学习的不断进步,具备多种架构的目标检测器在自动驾驶等复杂场景中取得了重大成功。此前针对目标检测器的对抗攻击侧重于针对其特定结构设计定制化攻击,虽取得了一定成果,但同时也限制了其可扩展性。而且,大多数针对目标检测器的研究工作源于原本为分类任务设计的图像级攻击,这导致在与目标无关的区域(例如背景)出现冗余计算和干扰情况。因此,如何设计一种与模型结构无关的高效攻击仍然是一个极具挑战性的问题。文章提出 NumbOD,一种全新的面向不同架构目标检测器的空频融合攻击策略,直接利用目标检测器输出的特征构建对抗样本。通过设计双轨攻击目标选择策略,从目标检测器的输出里择取高质量边界框当作攻击目标,接着使用定向扰动平移、压缩预测框并变更分类结果,实现蒙骗目标检测器。同时,着重修改图像高频部分,搅乱目标检测器对关键目标的聚焦,进而提升攻击效能。文章在九种不同目标检测器与两个数据集上进行了大量实验,证明了NumbOD强大攻击能力,目标检测器的平均mAP下降到1%以下。
侯宇翔的论文题目是“NaFV-Net: An Adversarial Four-view Network for Mammogram Classification”。乳腺癌仍然是女性死亡的主要原因之一,每年有数百万新病例被确诊。通过筛查进行早期检测至关重要。利用神经网络来提高乳腺癌筛查的准确性已变得越发重要。按照放射科医生的操作规范,文章提议在对抗学习过程中利用来自未患侧的图像来创建具有重要医学意义的对抗样本。通过引入有益的扰动,该方法旨在降低过度自信的情况,并提高乳腺癌分类的准确性和稳健性。文章提出一种对抗式四视图分类网络(NaFV-Net),它融合了来自患侧和未患侧视角的图像。通过全面捕捉局部和全局信息,并从乳腺钼靶检查的四个视图实施对抗学习,这一框架能够实现特征融合以及医学原理与放射科医生评估技术的整合,从而有助于对乳腺组织进行准确的识别和特征描述。大量实验表明,该模型在准确区分良性和恶性病变方面具有很高的有效性。相较于baseline,模型在内部数据集上AUC提高了9.74%,在公开数据集上AUC提高了6.51%,都展现出了最先进的分类性能。
AAAI致力于促进和推动人工智能研究、教育和应用,是人工智能领域内备受瞩目的顶级会议之一,也是中国计算机学会CCF推荐的A类会议。本届AAAI会议共有12957篇投稿(主赛道),经过全面而严格的审查程序,共有3032篇论文脱颖而出,录用率23.4%。
(通讯员:杜小虎、周子淇、侯宇翔)