SalesForce AI研究BannerGen:用于多模式横幅生成的开源库

SalesForce AI研究BannerGen:一款用于多模式横幅生成的开源库

有效的图形设计是成功营销活动的基石。它作为设计师与受众之间的沟通桥梁,通过吸引用户,突出重要细节,并增强活动的视觉效果。然而,当前的方法既耗时又涉及逐层组装工作,需要专业知识,难以扩展。

为解决上述问题,Salesforce的研究人员推出了一个名为BannerGen的开源库,利用生成式人工智能简化设计过程。该库包含三种并行多模式横幅生成方法 – LayoutDETRLayoutInstructPix2PixFramed Template RetrieveAdapter。每种方法都经过大量设计图形数据的训练,使它们能够加速设计过程。此外,它们都在BannerGen的GitHub存储库中开源,并可以作为Python模块导入,使开发人员可以轻松试验每种方法。BannerGen还具有许可字体和精心制作的模板,允许开发人员构建高质量的设计。

用户可以上传他们想要创建横幅的图片。然后,图像经过裁剪,重点关注主要元素以创建多个子图像。用户还可以指定要创建的横幅类型和要包含的文本。然后,将子图像集成到选定的模板中,创建令人惊叹的视觉效果。最终设计将生成为HTML和PNG文件。

研究人员将VAEGAN框架整合到他们的方法中,以使生成的设计与现实世界模式保持一致。DETR架构也已被纳入BannerGen,并被称为LayoutDETR。研究人员修改了DETR解码器以处理多模态前景输入。这种架构使BannerGen能够更好地理解背景和前景元素,从而获得更好的结果。

BannerGen还整合了InstructPix2Pix,一种基于扩散模型的图像到图像编辑技术。同样经过微调,将背景图像转换为带有叠加文本的图像。

第三种方法,Framed Template RetrieveAdapter,用于增强生成的设计的多样性,包括三个组件 – 检索器,根据指标找到最合适的框架;适配器,将输入图像和文本定制到适合框架中;渲染器,通过将背景层与用户输入整合,生成HTML/CSS设计。

总之,BannerGen是一个强大而多功能的框架,使用户能够利用生成式人工智能轻松创建定制的横幅。BannerGen的架构经过设计,能够从真实布局中学习并理解背景和前景元素。最终设计生成为HTML和PNG文件,便于手动调整,并可嵌入到任何媒体中以供立即使用。BannerGen旨在减少图形设计过程的时间消耗,帮助用户生成高质量和专业级的设计。

本文来源:SalesForce AI Research BannerGen: An Open-Source Library for Multi-Modality Banner Generation,首发于MarkTechPost