近日,实验室硕士生王明琪(导师张书豪教授)的论文“SAGE-DB-Bench: Benchmarking In-Memory Continuous ANNS under Dynamic Open-World Streams [Experiments & Analysis]”被ACM Special Interest Group on Management of Data(SIGMOD 2026)录用。
在开放世界环境中,实时向量数据流上的连续近似最近邻搜索(Approximate Nearest Neighbor Search,ANNS)面临数据分布漂移、噪声干扰与高频并发访问等多重挑战。然而,现有主流评估框架如ANN-Benchmarks与Big-ANN-Benchmarks,主要针对静态或简化流式场景设计,难以捕捉真实流式环境中细粒度的动态特性与并发行为。为此,论文基于Big-ANN-Benchmarks构建了SAGE-DB-Bench基准框架(https://github.com/intellistream/SAGE-DB-Bench),支持高频向量摄入、自适应漂移建模、随机噪声注入及查询-更新并发执行,并对各类算法实现即插即用的兼容性。通过在12个数据集上对19种主流ANNS算法的综合评估发现:在动态流式环境下,尚无任何算法能够持续兼顾高召回率、高吞吐量与高效的更新能力,进而揭示了流式场景中所固有的性能权衡困境。该工作为向量检索的未来发展提供了新思路,促使学界与业界在优化查询性能之外,进一步重视算法对动态数据流的适应性及更新效率,以推动相关技术在真实场景中的有效落地。
SIGMOD是数据库领域的顶级学术会议之一,致力于展示和分享数据库管理系统和数据管理领域的最新研究成果。
(通讯员:王明琪)