LOGO LOGO
硕士生吴漾的论文被数据库领域顶会SIGMOD 2024录用
时间:2024-03-11 14:13:36

近日,2022级硕士生吴漾(导师万瑶副教授)的论文“Automated Data Visualization from Natural Language via Large Language Models: An Exploratory Study”被国际顶级数据库学术会议(The ACM Special Interest Group on Management of Data, SIGMOD 2024) 正式录用。

自然语言驱动的自动数据可视化(Natural Language to Visualization,NL2Vis)任务旨在根据自然语言描述自动生成与表格数据相关的可视化图表,便于用户更轻松地分析海量数据。尽管已有多种深度学习方法应用于该任务,但在处理来自未知数据库或跨多个表的数据时仍然面临挑战。受到大规模语言模型出色的生成能力启发,该项研究进行了基于大模型的探索性研究。文章首先探讨了将结构化表格数据转换为顺序文本提示的方法,并分析了关键的表格内容。研究发现,将结构化表格数据转换为程序是有效的,并且在制定提示时考虑表格元数据是必要的。接着,评估了两种类型的大模型:微调模型和仅推理模型,并将它们与现有方法进行了比较。实验结果表明,大模型表现优于基准方法,尤其是在提供少量演示数据的情况下,推理模型的性能有时甚至超过了微调模型。最后,对大模型的表现进行了错误分析,并提出了迭代更新策略来优化结果,如思维链、角色扮演和代码解释器。实验结果验证了这些策略的有效性,为未来的研究提供了重要参考。

ACM SIGMOD是国际计算机界公认的数据管理领域学术地位最高的会议,在中国计算机学会(CCF)推荐的“数据库/数据挖掘/内容检索”领域的A类学术会议中排名第一。SIGMOD 2024第4轮投稿共收到投稿287篇,直接录用仅4篇,录用率为1.39%。

(通讯员:吴漾)