这项AI研究提出了LayoutNUWA:一种将布局生成视为代码生成任务的AI模型,以增强语义信息并利用大型语言模型(LLMs)的隐藏布局专长

This AI research proposes LayoutNUWA, an AI model that treats layout generation as a code generation task to enhance semantic information and leverage the hidden layout expertise of large language models (LLMs).

随着LLMs的增长,对LLMs的各个方面进行了彻底的研究。因此,图形布局也进行了研究。图形布局,即设计元素的排列和放置方式,显著影响用户与所给信息的交互和感知。一项新的研究领域是布局生成。它旨在提供各种简化开发对象的逼真布局。

目前的布局创建方法主要进行数值优化,侧重于定量方面,而忽视布局的语义信息,例如每个布局组件之间的连接。然而,由于它主要集中于收集布局的定量元素,如位置和大小,而忽略语义信息,如每个数值的属性,所以这种方法可能需要将布局表示为数值元组。

由于布局的各个部分之间存在逻辑链接,编程语言是布局的可行选项。我们可以使用代码语言开发有序序列来描述每个布局。这些编程语言可以将逻辑概念与信息和含义结合起来,弥合当前方法与对更全面表示的需求之间的差距。

因此,研究人员开发了LayoutNUWA。这个第一个模型将布局开发视为代码生成问题,以改进语义信息,并利用大型语言模型(LLMs)的隐藏布局专长。

Code Instruct Tuning (CIT)由三个相互连接的组件组成。代码初始化(CI)模块将数值情况量化,然后将其转换为HTML代码。这个HTML代码包含在特定位置放置的掩码,以提高布局的可读性和内聚性。其次,为了填充HTML代码中的掩码区域,代码完成(CC)模块使用大型语言模型(LLMs)的格式化知识。为了提高生成布局的精确性和一致性,它使用LLMs。最后,代码渲染(CR)模块将代码呈现为最终的布局输出。为了提高生成布局的精确性和一致性,它使用LLMs。

杂志、PubLayNet和RICO是三个经常使用的公共数据集,用于评估模型的性能。RICO数据集包括约66,000个UI布局,并将它们分为25个元素类型,重点关注移动应用程序的用户界面设计。另一方面,PubLayNet提供了一个庞大的图书馆,包含超过360,000个布局,分为五个元素组。作为杂志布局研究的低资源资源,杂志数据集包括超过4,000个注释布局,分为六个主要元素类别。这三个数据集经过预处理和调整,以保持一致性,使用LayoutDM框架。为此,原始验证数据集被指定为测试集,过滤掉超过25个组件的布局,并将精细调整后的数据集分为训练和新验证集,其中95%的数据集用于前者,5%用于后者。

他们使用代码和数值表示进行实验,全面评估了模型的结果。他们专门为数值输出格式开发了一个代码填充任务。在这个任务中,不是预测完整的代码序列,而是要求大型语言模型(LLM)仅预测数字序列中的隐藏值。研究结果显示,当以数值格式生成时,模型性能显著降低,模型开发尝试的失败率增加。例如,该方法在某些情况下产生了重复的结果。这种效率降低可以归因于条件布局生成任务的目标是创建连贯的布局。

研究人员还表示,如果只关注预测掩码位,可能会产生分离和不合理的数字。此外,这种趋势可能会增加模型无法生成数据的机会,特别是在指示具有更多隐藏值的布局时。