近日,2020级博士生刘超强(导师廖小飞教授)的论文“HeterRAG: Heterogeneous Processing-in-Memory Acceleration for Retrieval-augmented Generation”被第52届计算机体系结构国际研讨会(The ACM/IEEE 52nd Annual International Symposium on Computer Architecture,ISCA 2025)录用。
通过集成知识数据库,检索增强生成(Retrieval-augmented Generation,RAG)显著提升了自然语言生成在知识密集型场景和专业领域的表现。RAG系统主要由检索和生成两个阶段组成,但这两个阶段都受到严重的内存瓶颈制约。目前,研究人员倾向于采用基于高带宽存储器(High Bandwidth Memory,HBM)的存内计算(Processing in Memory,PIM)技术来加速传统大语言模型(Large Language Model,LLM)。然而,RAG的检索阶段需要存储大规模知识数据库,其存储需求远超传统LLM,导致容量瓶颈。单独使用 HBM-PIM进行 RAG 加速不仅成本高昂,且存储容量有限,而基于双列直插式存储模块(Dual-Inline-Memory-Modules,DIMM)的PIM具备大容量和低成本的优势,能够有效弥补HBM的不足。为此,文章提出异构PIM加速系统HeterRAG。HeterRAG结合HBM-PIM和DIMM-PIM,以实现高性能、高能效和低硬件成本。其中,HBM-PIM负责生成阶段,以满足高带宽需求,而DIMM-PIM负责检索阶段,以解决存储容量问题。此外,HeterRAG通过软硬件协同优化,包括局部性感知的检索与生成,以及细粒度并行流水线,进一步提升系统性能。评估结果显示,与运行在Intel Xeon CPU和NVIDIA GPU上的RAG系统相比,HeterRAG的吞吐量最高提升26.5倍,延迟降低最多27.6倍,能效提升最多2.8倍。
ISCA是计算机体系结构领域的顶级国际会议,也是中国计算机学会CCF A类会议。本届会议共收到570篇投稿,直接接收127篇论文,录用率约为22.2%。
(通讯员:刘超强)