谷歌AI研究人员推出了HyperDreamBooth:这是一种高效生成个人化权重的AI方法,仅需一张人物照片即可,比DreamBooth更小且快25倍
Google AI研究人员推出了HyperDreamBooth,一种高效生成个人化权重的AI方法,仅需一张人物照片即可,比DreamBooth更小且快25倍
生成式人工智能领域正受到应有的关注。最近在文本到图像(T2I)个性化方面的发展开辟了创新用途的有趣可能性。个性化的概念,即在不同的背景和风格中生成独特的人物,同时保持其身份的高度完整性,已成为生成式人工智能中一个重要的主题。利用预训练扩散模型,提供了关于各种风格的强先验的情况下,面部个性化变得可能。
像DreamBooth和类似的方法之所以取得成功,是因为它们能够将新的主题引入模型而不减少其过去的知识,并且即使以不同的方式呈现,也能保持主题的精髓和细节。但它仍然存在许多限制,包括模型大小和训练速度的问题。DreamBooth需要微调扩散模型的所有权重和文本编码器,使得稳定扩散的大小超过1GB,相当大。此外,稳定扩散的训练过程需要大约5分钟,这可能阻止其广泛应用和实际应用。
为了克服所有这些问题,谷歌研究团队引入了HyperDreamBooth,它是一个超网络,可以从一个人的单张图片有效地生成一组小的个性化权重。使用一个人的单张图片,HyperDreamBooth的超网络有效地创建了一小组个性化权重。然后将扩散模型与这些独特的权重相结合,进行快速调整。最终结果是一个强大的系统,可以在各种情况和美学中生成一个人的面部,同时保持主题的细节和扩散模型对各种美学和语义变化的基本理解。
HyperDreamBooth的令人难以置信的速度是其最大的成就之一。它比DreamBooth快25倍,比称为文本反演的另一种相关技术快125倍,可以在仅20秒内个性化人脸。此外,与DreamBooth保持相同的质量和美学变化程度相比,这种快速定制过程只需要一个参考图像。除了速度外,HyperDreamBooth在模型大小方面也表现出色。生成的个性化模型比常规DreamBooth模型小10000倍,这是一个重大优势,因为它使得模型更易管理,并显著降低了存储要求。
团队总结了他们的贡献如下:
- 轻量级DreamBooth(LiDB):引入了一个定制部分约为100KB的个性化文本到图像模型,通过在低秩调整权重空间内的随机正交不完全基础上训练DreamBooth模型来实现。
- 新的超网络架构:使用LiDB的配置,超网络为文本到图像扩散模型生成特定主题的定制权重。这提供了强有力的定向初始化,使得在少数迭代中快速微调以实现高主题保真度。这种方法比DreamBooth快25倍,性能相当。
- 秩松弛微调:提出了秩松弛微调技术,在优化过程中放松LoRA DreamBooth模型的秩,以增强主题保真度。这使得个性化模型可以从超网络得到初始近似,然后使用秩松弛微调来细化高级主题细节。