博士生曹楠、硕士生史瑞泽的论文分别被IJCAI 2021录用-服务计算技术与系统教育部重点实验室

博士生曹楠、硕士生史瑞泽的论文分别被IJCAI 2021录用

时间：2021-05-17 14:57:05

近日，第30届国际人工智能联合会议（The 30th International Joint Conference on Artificial Intelligence，IJCAI 2021）结果揭晓，实验室博士生曹楠的论文“Partial Multi-Label Optimal Margin Distribution Machine”和硕士生史瑞泽的论文 “Temporal Heterogeneous Information Network Embedding”被录用。

随着获取数据精确类别标记的难度和成本越来越高，弱监督学习已经成为近年来机器学习领域的热点，偏多标记学习(Partial Multi-label Learning, PML)作为其中一类，适用于多种实际应用问题的学习建模，因此受到广泛关注。在PML中，样本可能存在多个错误标记，因此需要在模型训练中逐步识别出错误标记，称为“消歧”。原有的PML算法主要通过固定的特征原型（一种反映特征与标记之间关联的结构）对不精确的标记集进行“消歧”，或者基于“低维结构”假设进行矩阵分解达到“消歧”目的，前者采用固定的特征原型会在模型学习过程中引入噪声，而后者的假设过于苛刻，在部分场景下难以满足，并且基于矩阵分解策略的模型通常无法采用核方法提升在线性不可分数据上的表现。论文提出偏多标记最优间隔分布学习机(Partial Multi-Label Optimal Margin Distribution Machine, PML-ODM)，以“标记对”的排序间隔分布作为优化目标，同时对每个候选类别标记是真实类别标记的置信度进行估计，从而达到“消歧”的目的；另一方面，在迭代优化过程中，论文动态更新特征原型，而不是将其固定，这样可以更准确地估计候选类别标记置信度，这反过来可以促进得到更好的模型；此外，PML-ODM还采用了核方法提升在线性不可分数据集上的表现。在多个真实数据集上的实验结果表明，PML-ODM算法在多个评估指标上优于目前最好的PML算法。

异质信息网络（Heterogeneous Information Network，HIN）嵌入，即获取HIN的低维向量表示，近几年由于其强大的性能受到了学术界和工业界的普遍关注。然而，之前针对HIN的研究普遍关注于静态HIN，或者使用基于快照的方式获取时间信息，不能捕捉网络演化过程中的全部动态信息。基于此，论文提出了一种针对时序HIN的嵌入方法：时序异质信息网络嵌入（Temporal Heterogeneous Information Network Embedding，THINE），THINE首先使用meta-path获取HIN的静态结构和语义信息；之后论文为时序HIN中的边建立候选meta-path集，并结合Hawkes过程模拟网络的演化；此外，论文还使用了两层注意力机制分别从结构和语义两方面区分重要性。以上技术使得他们的THINE不仅可以提取异质节点之间复杂关系的影响，还捕获了网络演化过程中的动态信息。在多个现实数据集（Aminer、DBLP、Yelp）上的结果表明，论文提出的THINE在静态任务（节点分类、链路预测）和动态任务（时序链路推荐）上优于之前的state-of-the-art方法。

IJCAI是人工智能领域中最主要的学术会议之一，原为单数年召开，自2016年起改为每年召开。IJCAI 2021共收到4204篇投稿，其中3033篇投稿通过summary reject阶段，最终录用587篇，录用率约为13.9%。

（通讯员：曹楠、史瑞泽）