稳定扩散深度2Img的变化:一步一步指南

稳定扩散深度2Img的变化:一步一步指南' The condensed result is '稳定扩散深度2Img变化指南

让我向您介绍一个可以在保留图像深度和形状的同时进行转换的AI模型。它叫做稳定扩散深度转图(stable-diffusion-depth2img),这是一个令人惊叹的工具,可以帮助您创造令人叹为观止的艺术和视觉效果。在本指南中,我们将深入了解这个模型的工作原理以及如何使用它创建一些惊人的视觉效果。我们将按照逐步指南使用Node.js来运行这个模型。

模型详细信息 – 迄今为止,该模型已经运行了超过34,000次!

我们还将看到如何使用Replicate Codex来寻找类似的模型,并决定我们喜欢哪一个。Replicate Codex是一个免费的工具,可以让您探索和比较AI模型,以便找到最适合您需要的模型。让我们开始吧!

关于稳定扩散深度转图

稳定扩散深度转图(Stable-diffusion-depth2img)由Jagilley创建,是图像到图像的AI模型的增强版本。它接受图像和文本提示作为输入,分别合成主题和背景。在这个过程中,它提供了对最终输出的更好控制。该模型通过使用MIDAS估计输入图像的深度图,从而实现了这一点。MIDAS是一个在2019年开发的用于单眼深度感知的AI模型。

深度图是一种灰度图像,编码了原始图像的深度信息。对象越白表示越接近,越黑表示越远。有了这个深度图,稳定扩散深度转图可以根据三个条件生成一个新的图像:文本提示、原始图像和深度图。

示例深度图 – Depth2Img使用这些图像来确定结构。来源。

该模型区分前景和背景的能力使得对生成的图像有更好的控制和自定义。

简单的英文解释

想象一下,您有一张美丽风景的图片,您想将其转换成未来的场景。您可以将图片和文本提示(如“未来风景”)提供给稳定扩散深度转图。该模型将首先估计场景中物体的深度,并利用这些信息创建一张带有未来感的图像,同时保留原始风景的形状和深度。

该模型存在一些限制,比如深度估计的准确性可能会影响最终结果。尽管如此,稳定扩散深度转图是一个创建AI生成艺术、视觉效果和其他创意项目的绝佳工具。

理解稳定扩散深度转图的输入和输出

在开始使用之前,让我们先看一下该模型的预期输入和输出。

输入

  • prompt: 引导图像生成的文本提示。
  • negative_prompt: 要从生成的图像中排除的关键词。
  • input_image: 用作起点的输入图像。
  • prompt_strength: 提供图像时的提示强度。较高的值对初始图像中的信息进行更多破坏。
  • num_outputs: 要生成的图像数量。
  • num_inference_steps: 去噪步骤的数量。更多的步骤通常会导致更高质量的图像,但推理速度较慢。
  • guidance_scale: 用于无分类器引导的比例。较高的值通常会鼓励与文本提示密切相关的图像,但往往会降低图像质量。
  • scheduler: 选择一个调度器。
  • seed: 随机种子。留空以随机化种子。
  • depth_image: 深度图像(可选)。指定输入图像中每个像素的深度。

输出

该模型根据提供的输入和参数返回一个新的图像。输出以原始JSON对象的形式返回,结构如下:

现在我们已经了解了模型的输入和输出,让我们深入到使用它的逐步指南中。

使用稳定扩散深度转图的逐步指南

如果您不想编码,可以直接通过Replicate的用户界面与此模型的“演示”进行交互。这是一个很好的方式,可以玩转模型的参数,并获得快速反馈和验证。

如果您更加技术性,并且想要在此模型之上构建一个酷炫的工具,您可以按照以下简单步骤在Replicate上使用stable-diffusion-depth2img模型。

在开始之前,请确保创建一个Replicate账户并获取此项目的API密钥。您将在第二步中需要它。

1. 安装Node.js客户端

这一步非常简单!

2. 设置环境变量

复制您的API令牌,并通过将其设置为环境变量进行身份验证:

3. 运行模型

Replicate的好处在于,您只需几行代码就可以完成这个步骤。将输入字段替换为您想要的任何值。

有关所有可能的字段值,请参考上面的“输入”部分。例如,使用默认值和Replicate的演示图像可以将卡斯帕·大卫·弗里德里希的漫游者转换为下面的图像:

稳定的扩散深度到图像的输出

请注意从输入图像中保留下的结构和风格:

原始输入图像

您还可以指定一个webhook URL,在预测完成时调用。有关设置的详细信息,请查看webhook文档。

进一步探索:使用Replicate Codex查找其他图像到图像模型

Replicate Codex是一个出色的资源,用于发现满足各种创意需求的AI模型,包括图像生成、图像转换等等。它是一个完全可搜索、可过滤、带标签的Replicate模型数据库,允许您比较模型,按价格排序,或按创建者进行探索。它是免费的,并且还有一个摘要电子邮件,会在有新模型发布时提醒您,以便您可以尝试它们。

如果您有兴趣找到与stable-diffusion-depth2img类似的模型…

1. 访问Replicate Codex

前往Replicate Codex开始搜索类似的模型。

使用页面顶部的搜索栏搜索具有特定关键词的模型,例如“stable diffusion”,“depth2img”或“controlnet”等。这将显示与您搜索查询相关的模型列表。

3. 过滤结果

在搜索结果页面的左侧,您会找到几个过滤器,可以帮助您缩小模型列表。您可以按类型(图像到图像、文本到图像等)、成本、受欢迎程度甚至特定创建者进行模型过滤和排序。

通过应用这些过滤器,您可以找到最适合您特定需求和偏好的模型。例如,如果您正在寻找最便宜或最受欢迎的模型,可以搜索并按相关指标进行排序。

使用Replicate Codex查找类似基于深度的模型。

结论

在本指南中,我们探索了stable-diffusion-depth2img模型的创造性可能性,该模型允许我们生成新的图像同时保留其形状和深度。我们还讨论了如何利用Replicate Codex中的搜索和过滤功能,找到类似的模型并比较它们的输出,从而拓宽了我们在AI驱动的图像增强和修复领域的视野。

我希望本指南能激发您探索AI的创造性可能性,并将您的想象力变为现实。