LOGO LOGO
实验室多篇论文被万维网和数据挖掘领域国际顶会WWW 2026录用
时间:2026-01-19 20:07:14

近日,2026年国际万维网会议(International World Wide Web Conferences2026,WWW 2026)录用结果揭晓,实验室罗瑞坤博士、博士生李昶吾(导师张书豪教授)、钟晟(导师何强教授)、硕士生张森磊(导师张书豪教授)、陈锐(导师何强教授)共计六篇论文被录用。

罗瑞坤博士的论文题目为“IRAG: Robust Multimodal Retrieval-Augmented Generation via Hazard Separation”。随着多模态大模型在开放环境中的广泛部署,多模态检索增强生成(Multimodal Retrieval Augmented Generation,MM-RAG)通过引入图文知识库显著提升了模型的事实性与任务泛化能力。然而,在真实开放场景下,MM-RAG 系统极易遭受检索投毒攻击。与纯文本 RAG 不同,多模态场景中图像与文本之间存在复杂的跨模态干扰与语义耦合,使得现有基于文本一致性或置信度过滤的防御方法难以直接适用,往往在攻击存在时出现鲁棒性急剧下降或正常性能严重退化的问题。为此,论文提出 IRAG,一种面向多模态 RAG 的首个系统性鲁棒防御框架,其核心思想是不再试图对单条检索结果进行精确判别,而是通过结构化地隔离潜在污染源,将多模态检索内容拆解为多个相互独立的候选子空间,并利用冗余与跨模态共识机制抑制投毒信息对生成过程的主导影响。借助上述设计,IRAG在MMQA与 WebQA数据集、以及BQI与ROTI等多种投毒攻击设置下,将正常答案准确率提升15–30%(恢复至投毒前水平),并将错误诱导答案比例稳定控制在7%以下,显著优于现有多模态RAG防御方法,在鲁棒性与生成质量之间实现了良好平衡。

罗瑞坤博士的第二篇论文题目为“Octopus: Vehicle-to-Road Collaborative Perception for Autonomous Driving with Closed-Loop Fusion”。随着自动驾驶系统对高精度环境感知需求的不断提升,协同感知被广泛认为是缓解单车感知受限与遮挡问题的关键技术。然而,现有协同感知方法大多依赖车辆之间的广播式V2V(Vehicle-to-Vehicle Communication,车对车通信)通信范式,导致通信开销随车辆数量呈平方级增长,不仅造成大量冗余数据传输,也显著增加了系统计算与实时性负担。此外,这类开放式融合机制仅在感知结果层面进行信息聚合,缺乏对历史全局感知信息的有效利用,使得单车感知模型难以在高度动态的交通场景中持续获得稳定且一致的感知性能。为此,论文提出 Octopus,一种面向自动驾驶的车路协同闭环感知框架,通过引入具备强计算与通信能力的路侧单元(Road Side Unit,RSU)作为感知协同的核心枢纽,从根本上重构传统广播式协同感知范式。Octopus 使车辆仅与RSU进行点对点通信,由RSU负责多车感知信息的聚合与融合,显著缓解系统带宽压力并提升可扩展性。大量实验结果表明,Octopus 在OPV2V与V2V4Real数据集上均显著优于现有最先进协同感知方法:在AP@0.7指标上最高提升达11.58%,通信开销降低至12.55 KB,相较传统方法实现了最高5514倍的通信量压缩。

李昶吾的论文题目为“StreamFP: Fingerprint-guided Data Selection for Efficient Stream Learning”。在实时网络应用中,流式学习在非平稳海量数据流下易出现训练冗余与灾难性遗忘问题,进而损害模型的长期预测能力。尽管已有方法取得进展,但在数据分布快速漂移下仍难以有效自适应。为此,论文提出了一个轻量级的流学习框架StreamFP,通过可学习的指纹表征模型状态,以相似性评分协同核心集选择与缓冲区更新,在控制开销的同时缓解遗忘并提升长期性能。大量实验表明,StreamFP 在多领域数据集及不同数据到达率下均展现出显著优势。相较于现有最先进的数据选择与持续学习策略,StreamFP在模型准确率方面提升了 0.33%–4.45%,同时将灾难性遗忘率降低了 0.13%–4.58%。

钟晟的论文题目为“Glasses: Enabling Fast Environment-aware Few-Shot Learning via Device-Cloud Collaboration。预训练视觉模型已部署在各种边缘设备上,通过少样本学习(FSL)助力广泛的下游任务,尤其在下游数据或设备端资源有限的情况下。然而,少样本学习常因无法适应部署环境的特性而表现不佳,但由于缺乏特定环境的样本,在模型部署前对主干网络进行微调通常难以实现。为应对这一挑战,论文提出了Glasses,这是一种轻量级微调方案,能够通过端云协作使基于 ViT 的模型主干网络快速适应部署环境,帮助模型在设备端获得更好的少样本学习表现。Glasses 利用云端的计算能力和样本资源,仅依据一张无标签的环境图像就能生成模型更新,实现模型的快速适应。在两个数据集上对五个模型进行的实验表明, Glasses能快速适配模型,在1-shot设置下,性能优于原始主干网络5.54%–22.56%;在5-shot设置下,性能优于原始主干网络2.50%–10.28%。

张森磊的论文题目为“FlowRAG: Continual Learning for Dynamic Retriever in Retrieval-Augmented Generation”。在动态演化语料场景下,RAG 往往因新文档持续涌入与分布漂移而使稠密检索器性能逐步退化,而频繁全量重训又计算开销巨大;为此论文提出轻量级持续检索适配方法 FlowRAG,通过分层提示嵌入与跨层融合建模层级语义表征,并引入生成器引导损失将检索评分与大模型生成似然对齐,使检索结果既语义相关又更有利于生成;在覆盖多领域数据集及不同顺序训练设置的实验中,FlowRAG 仅需更新约 0.64% 参数,便能在生成质量F1分数上相对基线平均提升 5%,并在抗遗忘稳定性上平均降低 7%

陈锐的论文题目为“Thorki: Decoupling General and Personalized Knowledge with Collaborative Fusion for Personalized Federated Learning”。联邦学习在保护数据隐私的同时,实现了多个客户端模型之间的知识共享。其核心挑战在于如何在聚合跨客户端通用知识的同时,保留各客户端的个性化知识。研究发现,这一问题主要源于通用知识与个性化知识在模型各层级上的相互耦合。现有方法要么难以彻底解耦这两类知识,要么在推理阶段未能充分加以利用,从而限制了整体性能。论文提出了一种新的联邦学习系统 Thorki,从模型层面实现了通用知识与个性化知识的有效解耦。Thorki 采用双模型结构:将个性化知识存储于小模型,将通用知识集中于大模型,并在推理阶段通过融合网络对两者的输出进行自适应整合,从而更充分地利用通用知识与个性化知识。该模型协作范式使客户端能够在不影响个性化推理能力的前提下,以联邦方式共享通用知识。大量实验结果表明,Thorki 相较于现有最先进的联邦学习方法,在模型准确率方面提升了 0.16%19.14%,并在达到目标精度所需时间方面实现了2.00×–10.00×的加速效果。

ACM The Web Conference是万维网和数据挖掘领域的国际顶级学术会议,也是中国计算机学会CCF A类会议。本届会议投稿共收到3370篇投稿,共录用676篇论文,录用率为 20.1%


(通讯员:罗瑞坤、李昶吾、钟晟、硕士生、陈锐)