近日,2022级博士生桂祎(导师蒋文斌教授)的论文“LaTCoder: Converting Webpage Design to Code with Layout-as-Thought”被ACM SIGKDD Conference on Knowledge Discovery and Data Mining 2025(KDD 2025)会议录用。
从网页设计图自动生成可用代码对于提升前端开发效率至关重要,但现有多模态大模型(Multi-model Large Language Model,MLLM)在这一过程中常常丢失关键的布局信息。为此,研究人员借鉴人类“链式思维”(Chain-of-Thought)的分步推理方式,提出了“Layout-as-Thought”(LaT)理念,并在此基础上设计了 LaTCoder。该方法首先通过高效算法将高分辨率设计图切分为若干图像子块,然后针对每个子块采用 CoT 风格的提示策略,分别生成对应的 HTML/CSS 代码;最后结合绝对定位与 MLLM 驱动的智能组装策略,将子块代码合并成完整页面,并通过动态验证器挑选出既忠实原始布局又便于维护的最佳方案。在 DeepSeek-VL2、Gemini 和 GPT-4o 等主流模型上,分别于公开的 Design2Code-HARD 基准以及我们新构建的更具挑战性的 CC-HARD 数据集上进行评测,结果表明 LaTCoder 在 TreeBLEU 指标上较直接提示提升了 66.67%,平均绝对误差(Mean Absolute Error,MAE)降低了 38%,且在人机偏好评估中超过 60% 的案例中被标注者选为更优。实验证明,LaTCoder 通过分块思考与动态组装的有机结合,显著弥补了现有 MLLM 在布局捕捉方面的不足,为自动化网页合成提供了新的思路和实践路径。
KDD是知识发现和数据挖掘领域的国际顶级学术会议,也是中国计算机学会(CCF)推荐的A类会议。2025年KDD research track的投稿量为1988篇,最终接收了365篇(录用率为18.4%)。
(通讯员:桂祎)