NVIDIA和特拉维夫大学的研究人员介绍了Perfusion:一个紧凑的100 KB神经网络,具有高效的训练时间

NVIDIA和特拉维夫大学的研究人员介绍了Perfusion:一个紧凑的神经网络,训练时间高效

文本到图像(T2I)模型已经引领了一种新的技术灵活性时代,赋予用户通过自然语言输入来指导创造过程的能力。然而,将这些模型个性化以与用户提供的视觉概念完全对齐却是具有挑战性的。T2I个性化涵盖了一系列艰巨的挑战,例如平衡高视觉保真度和创造性控制、在单一图像中有效结合多个个性化理念,以及为实现高效性能而优化模型的大小。

一种开创性的个性化方法称为“Perfusion”已经被开发出来以应对这些挑战。Perfusion的精髓在于其能够对基础的T2I模型进行动态Rank-1更新。这种创新确保了模型在生成图像时保持高视觉保真度,同时允许用户对生成的图像施加自己的创作影响。

Perfusion解决的最关键的问题之一是防止过拟合。在这方面,一种名为“键锁定”的新机制已经被引入。该机制有效地将新概念的交叉注意力Keys锚定到其上级类别,从而减轻了过拟合的风险并增强了模型的稳健性。

此外,Perfusion利用了一种门控的Rank-1方法,在推理过程中赋予用户对学习到的概念影响的精确控制。这一强大的特性使用户能够将多个个性化图像结合起来,培养出多样化和富有想象力的视觉输出,这些输出反映了用户的输入。

Perfusion最引人瞩目的特点之一是它能够在保持视觉保真度和文本对齐的同时保持紧凑性。Perfusion只需要一个大小为100KB的训练模型就能展现其魔力,这一成就尤为令人印象深刻,因为它比当前最先进的模型小了五个数量级。

Perfusion的效率不仅仅体现在其紧凑的大小上。该模型可以轻松地跨越Pareto前沿上的不同操作点,而无需额外的训练。这种适应性赋予用户微调所需输出的能力,释放了T2I个性化过程的全部潜力。

在实证评估中,Perfusion在定性和定量评估方面都展现出对强基线的优越性。其键锁定机制在与传统方法相比实现了新颖的结果,使得个性化对象交互的描绘达到了前所未有的方式。Perfusion展示了在单次设置中生成卓越视觉组合的能力。

随着技术世界的不断发展,Perfusion证明了自然语言处理和图像生成交叉领域的令人难以置信的可能性。

凭借其对T2I个性化的创新方法,Perfusion为创造力和表达开辟了新的道路,展示了人类输入和先进算法和谐共存的未来。