LOGO LOGO
硕士生张熠和博士生罗子涵的论文分别被数据挖掘领域顶会KDD 2025录用
时间:2024-11-18 10:05:10

近日,第31届知识发现与数据挖掘国际会议(The 31th SIGKDD Conference on Knowledge Discovery and Data Mining)录用结果揭晓,实验室2022级硕士生张熠(导师金海教授)和2022级博士生罗子涵(导师黄宏副教授)的论文分别被录用。

张熠的论文题目为“Runtime-Aware Pipeline for Vertical Federated Learning with Bounded Model Staleness”。垂直联邦学习 (Vertical Federated Learning,VFL) 通过融合各方地理分布的数据特征,实现保护隐私的协作,从而训练全局模型。由于跨方数据(cross-party)在广域网上频繁交换,通信被认为是影响训练效率的主要瓶颈。现有的同步VFL工作通常存在过多的通信开销,而异步方案可能会引入严重的模型陈旧性,从而可能降低学习准确性。文章提出了BS-VFL,一种具有有限陈旧的异步VFL,用于流水线本地计算和统计数据传输,在确保良好模型性能的同时,大大降低了通信开销。具体而言,所有数据方在生成嵌入之前都会优先考虑本地模型更新,以减少模型陈旧性。通过分析收敛误差,表明 BS-VFL 可以实现与同步 VFL 相当的结果。此外,提出了一个通用框架来推导 BS-VFL 的闭式挂钟时间,提供其运行效率的衡量标准并强调显著的通信减少。利用这种收敛性和时间分析,改进了学习参数以最小化收敛误差,从而在不影响训练效率的情况下优化BS-VFL的性能。在现实世界数据集上进行的大量实验验证了BS-VFL相对于前沿方法的优势,证明训练时间减少了48%-90%,同时保持了模型准确性。

罗子涵的论文题目为“Towards Controllable Hybrid Fairness in Graph Neural Networks”。近年来受可信人工智能的影响,图神经网络的公平性问题越来越受到关注。现有的公平性图神经网络往往停留在研究一种或两种特定的公平性问题上,而忽略了公平性定义的多样性。为解决这一问题,文章首先提出了一种名为混合公平性的概念,并进一步设计了一个名为LibraGNN的公平性图神经网络训练框架。具体而言,LibraGNN使用多教师知识蒸馏的思路来帮助学生模型同时学习多种公平性相关的知识,并通过帕累托最优理论进行多目标优化,帮助学生模型更好地平衡多种不同的公平性。除此之外,文章还引入了可控偏好向量的设计,帮助使用者更好地根据自身实际需求来确定最终混合公平性的组成。实验评估结果表明,LibraGNN可以在不影响模型本身性能的前提下显著提升混合公平性,从而帮助模型达到一个更加公平的状态。

KDD是数据挖掘领域的顶级会议,也是中国计算机学会(CCF)推荐的A类会议。该会议一直被认为是数据挖掘领域水平最高的会议之一,在全球范围内享有盛誉。此次KDD 2025会议投稿量967篇,录用率约为19%。

(通讯员:张熠、罗子涵)