斯坦福大学和 Salesforce AI 的研究人员发布了UniControl:一种用于AI图像生成中高级控制的统一扩散模型
斯坦福大学和 Salesforce AI 的研究团队发布了UniControl:一种统一扩散模型,用于AI图像生成中的高级控制
生成性基础模型是一类人工智能模型,旨在生成与其训练数据相似的新数据。这些模型常被应用于自然语言处理、计算机视觉、音乐生成等各个领域。它们从训练数据中学习底层的模式和结构,并利用这些知识生成新的、类似的数据。
生成性基础模型具有各种应用,包括图像合成、文本生成、推荐系统、药物研发等。研究人员不断改进它们的生成能力,如生成更多样化和高质量的输出、增强可控性,以及了解与使用它们相关的道德问题。
斯坦福大学、东北大学和Salesforce AI研究团队开发了UniControl。它是一个适用于野外可控视觉生成的统一扩散模型,能够同时处理语言和各种视觉条件。UniControl可以执行多任务并将不同任务的视觉条件编码为通用的表示空间,寻找任务之间的共同结构。UniControl需要采用其他任务的各种视觉条件和语言提示。
- 非结构化数据漏斗
- 追求LLM的可解释性:为什么我的模型会产生这个输出?
- 通过Amazon SageMaker优化Talent.com的ETL数据处理 (Talent.com在Amazon SageMaker上简化ETL数据处理流程)
UniControl以像素级精度进行图像创建,其中视觉元素主要塑造了生成图像,而语言提示则指导了样式和上下文。为了增强UniControl处理各种视觉场景的能力,研究团队扩展了预训练的文本到图像扩散模型。此外,他们还加入了一个任务感知的HyperNet,调整扩散模型,使其能够同时适应多个基于不同视觉条件的图像生成任务。
他们的模型比ControlNet对三维几何深度图和表面法线的理解更细致。深度图条件产生的输出更加准确可见。在分割、openpose和物体边界框任务中,他们的模型生成的图像与给定条件更加对齐,确保对输入提示的忠实度更高。实验结果表明,与可比较模型大小的单任务控制方法相比,UniControl的性能往往更好。
UniControl统一了ControlNet的各种视觉条件,并能够对新见任务进行零样本学习。目前,UniControl仅采用单个视觉条件,同时仍能够进行多任务和零样本学习。这凸显了它的多功能性和在野外广泛采用的潜力。
然而,它的模型仍然受限于基于扩散的图像生成模型的局限性。具体而言,它受到研究人员训练数据的限制,该数据是从一部分Laion-Aesthetics数据集中获取的。他们的数据集存在数据偏差。如果能够使用更好的开源数据集来阻止生成有偏见、有毒、色情或其他有害内容,UniControl可能会得到改进。