LOGO LOGO
博士生刘超强、翟嘉琪的论文均被系统与体系结构领域国际顶级会议ISCA 2026录用
时间:2026-04-01 18:19:10

近日,实验室博士生刘超强(导师廖小飞教授)和翟嘉琪(导师石宣化教授)的论文分别被53届国际计算机体系结构研讨会(The 53rd International Symposium on Computer Architecture, ISCA 2026录用。

刘超强的论文题目为“Meridian: In-Memory Acceleration for RAG with Document Attention Decomposition”。为解决检索增强生成系统在生成阶段面临的高通信开销和低计算利用率问题,该论文提出了去中心化存内计算架构Meridian。其核心创新在于引入文档注意力分解机制,将文档侧KV缓存分散部署到多个存内计算模块中进行本地处理,仅需传输简短的中间结果,从而显著降低了跨设备数据移动开销。在此基础上,论文进一步设计了与该执行模式协同优化的存内计算加速器和混合调度机制,有效提升了系统整体执行效率。实验结果表明,Meridian在吞吐率和延迟等方面均优于多种现有先进存内计算方案,展现出面向下一代高效RAG推理系统的应用潜力。

翟嘉琪的论文题目为“ParetoES: Hardware-Accelerated Sparse Embedding Similarity via Pareto-Optimal Pruning”。该工作面向稀疏嵌入检索这一现代信息系统中的关键任务,聚焦 Top-K 稀疏矩阵-向量乘法中访存开销大、计算冗余高,以及现有方案难以兼顾召回率与吞吐率等问题,提出了 FPGA 加速检索系统 ParetoES。与传统追求全量计算的方案不同,该论文提出并系统实现了面向稀疏检索的选择性计算范式,基于仅计算最有价值候选的思想,在召回率与系统效率之间建立更优折中。围绕这一范式,论文从算法、体系结构与系统三个层面协同优化,设计了融合聚类、低比特量化与剪枝的候选压缩方法,提出了面向多核并行的负载均衡策略,以及支持灵活探测的轻量级自适应簇探测架构,从而在保证较高检索精度的同时显著提升系统吞吐。实验结果表明,在 Recall@100 保持在 0.8 以上时,ParetoES 相比 CPU GPU 基线最高可分别实现 540 倍和 79 倍吞吐提升,较现有先进 FPGA 方案平均提升 2.27 倍,展示了选择性计算范式在大规模稀疏检索中的显著优势与应用潜力。

ISCA是系统与体系结构领域最重要的国际会议之一,与HPCAASPLOSMICRO并称为系统与体系结构领域“四大顶会”,属于中国计算机学会CCF A类会议。本届会议共收到845篇投稿,其中116篇被正式接收,另有45篇论文获得有条件接收资格,整体录用率约为19.1%


(通讯员:刘超强、翟嘉琪)