掌握AI艺术:中旅程与提示工程的简明指南
AI艺术简明指南
MidJourney AI生成艺术简介
人工智能正在迅速突破不可能的障碍,最近它已经入侵了艺术领域,彻底改变了艺术。现在,你不需要成为一名大师级艺术家或Photoshop专家,就可以将你的想象力化为现实。多亏了Midjourney,一个简单而清晰的提示就足够了。
这一切始于2022年引入的划时代技术,如DALL-E、Midjourney和StableDiffusion。虽然每一项创新都为生成式人工智能带来了独特的风格,但Midjourney在其引人注目的旅程中继续取得显著进展。
Midjourney目前是市场上领先的高分辨率文本转图像人工智能生成器,以其独特的文本转图像生成、媒体编辑和升级以及活跃的艺术社区访问而脱颖而出,价格从每月10美元起。这个功能齐全的套件为艺术家、技术爱好者和人工智能专业人士提供了一个激动人心的创作环境。
艺术界无疑正在关注中,预计生成式人工智能在艺术市场上的增长将达到惊人的40.5%的复合年增长率。Midjourney在使用人工智能生成最逼真、高质量的视觉效果方面无可匹敌。
- 深度学习用于深度对象:ZoeDepth是一个用于多领域深度估计的AI模型
- 使用Plotly Express Sunburst图表探索地质数据
- FedML和Theta揭示了分散式AI超级集群:驱动生成式AI和内容推荐
有效的提示工程不仅仅是创作,它还包括最佳实践。提示应该提供清晰度,简洁明了,同时为人工智能提供足够的指导,而不是过度指定。此外,设计过程中还必须考虑目标受众,考虑到年龄、性别、文化背景等变量。
MidJourney是如何工作的?
Mid-Journey利用了两种新颖的机器学习技术 – 大型语言模型和扩散模型。语言模型类似于ChatGPT等AI聊天机器人,它帮助Mid-Journey解释您的提示的含义并将其转换为向量。然后,这个向量将指导扩散过程。
Midjourney的内部工作方式大部分是未公开的。然而,很明显它使用了两个相对新颖的机器学习技术:大型语言模型和扩散模型进行文本到图像的生成。前者可能对像ChatGPT等AI平台的用户来说很熟悉,而后者则是AI艺术生成领域的一个有前途的补充。整个系统依赖于CLIP数据集进行训练,该数据集可以在OpenAI的研究页面上找到。
尽管信息有限,但我们可以勾勒出Midjourney扩散模型的大致轮廓,它被恰当地命名为“稳定扩散”。基本上,稳定扩散是一个开源模型,它能够巧妙地将文本提示转化为具有不同风格和内容的图像。这个复杂的过程是通过扩散模型实现的,扩散模型能够建立文本输入和图像输出之间的依赖关系。
扩散模型是基于去噪扩散方法构建的,这种方法受到非平衡热力学的影响。该方法系统地拆解数据的结构,然后再恢复它。2020年,何等人将这种方法改为图像生成,从而引发了我们今天看到的扩散模型的诞生。
训练扩散模型包括两个主要阶段。首先,正向或扩散过程涉及将随机噪声逐步添加到输入图像中,直到它完全变成噪声。这个过程由一个固定的马尔科夫链控制,该链在连续的几个步骤中始终添加高斯噪声。
随后,在逆向或重建阶段,模型从扩散过程中达到的以噪声为主的状态中恢复原始数据。这个过程由具有学习的高斯转换的马尔科夫链驱动,这意味着在任何给定时间的概率密度预测仅依赖于前一个时间步骤中达到的状态。由于潜在的“x1,…,xT”与数据具有相同的维度,扩散模型被归类为潜变量模型。
Mid-Journey的费用和订阅
尽管像ChatGPT和Bing Chat等许多聊天机器人提供几乎无限的免费使用,但Mid-Journey这样的图像生成器情况有所不同。由于需要大量的计算能力,特别是来自图形处理单元(GPU)和用于去噪过程的视频内存使用,Mid-Journey的服务是需要付费的。
基本计划从每月10美元起,提供大约3.3小时的GPU时间,足够生成大约200张图像。然而,还有更高端的计划,在放松模式下提供无限的图像,尽管等待时间较长。
设置您的MidJourney
- 开始使用MidJourney需要在他们的官方网站上注册,订阅一个计划,然后被重定向到Discord。
- 一旦您在Discord上找到Mid-Journey频道,请导航到左侧的新手组。从那里,您可以观察其他用户创建提示,学习Mid-Journey的机制,并在繁忙的环境中进行互动。
- 熟悉环境后,邀请机器人加入您的私人服务器以创建不受干扰的图像。机器人根据您的提示生成四张预览图像,让您选择与原始想法最接近的图像,并进一步完善图像。
Midjourney的提示结构
- 在Midjourney频道的discord频道中使用/imagine命令,可以根据简短的文本描述(提示)生成独特的图像。
- 要在各种图像上重现特定的风格,只需在文本提示旁边输入图像URL。您的新输出将合并您选择的图像和文本的元素。/imagine http://link-to-your-image <image description> -parameter1 -parameter2 您可以通过将图像上传到Discord频道来生成图像链接。上传后,右键单击图像并选择“复制链接”。这里的http://link-to-your-image和参数是可选的。
- 接下来,机器人开始处理您的图像,大约需要一分钟提供四种替代方案。这个过程涉及使用强大的图形处理单元(GPUs)来处理和解释每个提示。
- 使用/info命令来跟踪您的GPU使用情况。它可以让您检查“剩余快速时间”并监控您的订阅的GPU时间。
图像放大和修改
为了获得更精细的图像,可以使用图像下方的“U”按钮来放大您的首选图像。您还可以使用“V”按钮对特定图像进行调整。要对放大后的图像进行进一步更改,可以使用“制作变体”、“轻度放大重做”和“Beta放大重做”选项。“Web”按钮允许您在单独的窗口中查看图像的较大尺寸。
通过Midjourney的Beta放大重做功能,可以将图像放大到2048×2048(方形)和2720×1530(宽屏)分辨率,其默认生成网格大小为1024×1024(方形)和1456×816(宽屏)。每个图像都可以通过“U”放大选项进一步增强,以改善图像的特定部分。
看看这个使用Midjourney的V5.2版本生成了精美艺术品的提示。
/imagine 艺术品描绘了一棵孤独的树,树下是一个在星光下阅读的孩子,色调以宁静的蓝色和温暖的橙色为主,灵感来自法国印象派的笔触,波斯小品画,包豪斯的简约风格,让人联想到经典儿童童话插图,实现了一种不对称的和谐,在迷人的民间/天真中表达:-ar 15:19 -upbeta -q 2
创建您的第一个Midjourney AI艺术品
- 制作基本蓝图:将自己视为艺术家。从简单而生动的描述开始,描述您希望栩栩如生的图像。概述主题、氛围,甚至您希望嵌入的细节。使用逗号、括号和连字符等标点符号来组织您的思想。为了获得更好的结果,明确说明设计的上下文和细节。如主题(例如龙、老式汽车、亚伯拉罕·林肯)、VoAGI(例如数字艺术、铅笔素描)、环境(例如外太空、水下、繁华城市)、照明(例如柔和、霓虹、背光)、颜色(例如土色调、鲜艳、柔和)、情绪(例如忧郁、异想天开、平静)和构图(例如风景、特写、广角)等因素至关重要。例如:
- 阳光照耀下的田园风光,一条小路蜿蜒到远处
- 一座永不休眠的城市,霓虹灯映照在人行道上,多样的人群在其中穿梭
- 融入风格和关键词:Midjourney的人工智能能够以抽象、超现实或逼真的方式绘制图像。通过整合风格或相关关键词,您可以引导人工智能创造出与您愿景相符的图像。尝试不同的风格和关键词,探索完美的融合。例如:
- 一幅描绘黎明时分的沙漠的风景画,以乔治亚·奥姬芙的风格为镜像,采用柔和的色彩调色板和有机形式。
- 一幅抽象的和平森林画,几何图案形成树木和植被,受到彼特·蒙德里安构图的启发。
- 利用高级设置:将Midjourney视为充满高级设置的创意工具箱,可以微调生成的图像。就像挥舞一根魔杖一样,您可以调整随机性、风格化和图像变化的理想平衡。通过调整这些设置释放您的创造力,直到找到与您愿景相契合的完美组合。例如:
- 一座宁静的日本花园,池塘倒映着樱花树——种子22 –s 150 –c 40
- 一个充满霓虹灯的反乌托邦赛博朋克城市——种子88 –s 600 –c 60
- 使用权重突出元素:将您的图像想象成一个交响乐,每个元素都为大合奏做出贡献。使用“::”符号,您可以规定图像中各个元素的重要性,从而控制焦点。例如:
- [优雅的孔雀]::3栖息在[紫藤树]::1上,盛开着鲜艳的花朵
- [雄伟的大象]::2沐浴在[落日]::1的光辉中,位于大草原上
- Midjourney是试错的过程:尝试不同的元素和功能是必要的。每次迭代都会使您离想象中的图像更近一步。
中途参数
Midjourney模型使用可调参数来控制图像生成过程的结果。这些参数允许用户微调和定制生成的艺术作品,通过微调模型来创建完美符合目标的输出。
让我们深入了解基本参数和高级参数,它们的功能以及如何使用它们充分发挥Midjourney的能力:
- 宽高比(–aspect或–ar):该参数控制生成图像的宽高比。例如,16:9的比例非常适合YouTube缩略图,而1:1则产生适合Instagram的方形图像。
- 混乱度(–chaos):该参数调整初始图像网格的多样性,范围从0到100。更高的混乱度值会产生不可预测和独特的结果,而较低的值则保证更一致的结果。
- 排除(–no):该参数帮助您排除生成图像中的特定元素或特征。例如,如果您想要一张没有任何红色的图片,您可以使用“–no red”。
- 质量(–quality或–q):该设置调整生成图像所需的时间。更高的质量需要更多的处理时间,但可以产生更精细的细节。该参数可以取值为.25、.5、1或2。
- 种子(–seed):该参数确定起始的视觉噪声,作为生成图像的基准。使用相同的种子数和相同的提示将产生类似的输出。它接受0-4294967295之间的整数值。
- 停止(–stop):通过该参数,您可以提前终止作业,生成较少细节但可能有趣的输出。范围是10-100。例如,如果您指定“–stop 50”,图像生成过程将在50%完成时停止,产生一张较少细节、可能抽象的图像。
- 风格化(–stylize或–s):该参数控制生成图像上的艺术应用程度。较低的风格化数值会产生与初始提示更接近的结果,而较高的数值则会产生更抽象和艺术化的解释。在v5中,默认值为100,但您可以将其设置为0-1000之间的任意值。
- 模型版本:您可以通过使用–version或–v参数从各个Midjourney模型版本中进行选择。
- Niji:专门用于动漫风格图像的模型。可以使用–niji参数访问。
- 高清模式:对于抽象和风景图像,–hd参数激活一个早期的模型版本,产生更大、更不一致的图像。
- 测试模型:Midjourney为特定的用例提供特殊模型。–test和–testp分别激活标准和以摄影为重点的测试模型。
- 放大器:Midjourney算法从低分辨率图像网格开始。它提供了多个放大模型来增强图像的尺寸和细节。
- Uplight:一个替代的轻量级放大器(–uplight)提供的放大图像细节较少,但更平滑。
- Upbeta:–upbeta参数导致的图像附加细节明显较少,更接近原始网格图像。
- Upanime:–upanime放大器专门设计用于与–niji Midjourney模型配合使用。
- 图像权重:使用–iw调整图像提示权重相对于文本权重。默认值为0.25。
- Sameseed:–sameseed参数确保初始网格中的所有图像使用相同的起始噪声,创建非常相似的生成图像。
- 视频:Midjourney可以使用–video参数保存初始图像网格生成过程的进度视频。
- 创意:使用–creative参数,test和testp模型输出更多样化和创造性的图像。
Midjourney持续推出更新以增强用户体验,最新版本为5.2,于2023年6月发布。通过在提示中附加–v 5.2或通过/settings命令选择它,用户可以访问这个先进的模型。版本5.2提供了更出色的图像细节和更直观的提示理解能力,带来更明亮的颜色和改进的构图。
理解AI生成艺术品的版权
2023年3月,美国版权局对人工智能生成作品的版权问题进行了澄清。该政策规定,虽然AI创作中的人类创造的元素(如写作或独特设计)可以受到保护,但AI生成的图像不符合版权要求,遵循全球范围内只有人类创作才有资格受版权保护的规范。
在AI艺术的背景下,版权并不简单。虽然数字艺术有人类艺术家的输入,但AI生成的艺术作品是在没有直接人类干预的情况下创作的,这使得作者和所有权的问题变得复杂。根据美国版权局的规定,最初的所有权归作品的作者 – 人类创作者。然而,由于AI不能被认为是作者,因此AI生成的艺术缺乏明确的所有权。
美国版权局的最新指南仅允许对具有足够人类创作的AI艺术进行版权保护。什么是“足够的人类创作”水平尚未定义,并且取决于人类参与创建AI艺术品的程度。
有趣的是,基于AI的图像生成平台Midjourney制定了自己的使用权政策。免费试用用户可以根据知识共享署名-非商业性使用4.0国际许可协议(CC BY-NC 4.0)在非商业目的下使用图像,并正确署名Midjourney。然而,付费订阅用户可以根据通用商业条款在任何目的下使用图像,包括商业用途。这一版权领域的发展展示了人工智能与人类创造力之间的有趣动态。
利用Midjourney进行动态UI设计和创意标志生成
从为网站或移动应用设计直观的用户界面到制作独特的标志和横幅,Midjourney通过在几秒钟内生成一系列设计方案来赋予内容创作者权力。
以下是它的工作原理。每个设计都以提示作为蓝图,供AI跟随。假设您正在为一个在线辅导平台应用设计用户界面。一个典型的提示可能是:“/imagine在线辅导平台用户界面,Dribbble,高分辨率,4K,像可汗学院一样”。
初始结果可能不完全符合要求。例如,将“Adobe XD”添加到其中可以帮助Midjourney更好地调整设计以与Adobe XD兼容。优化后的提示将是:
/imagine在线辅导平台,用户界面,Adobe XD,Dribbble,高分辨率,4K,极简设计
使用Midjourney创建受文字启发的标志或横幅
让我们探索如何为UNITE AI创建一个带有标志的横幅。
首先,您需要有一个要显示的简单文本图像。您可以使用任何图形设计工具或文本编辑器创建它,并将其上传到您的Discord频道。
- 用于创建UNITE标志的简单文本图像
创建横幅的提示是:
/imagine Letters: <链接到要显示的简单文本图像> UNITE使用未来主义、受AI启发的字体标志,字母UNITE –v 5 –ar 16:9
以下是一些示例提示,供您参考更多创意:
/imagine一个孤独的音乐家在黄昏时分在漂浮的城市上演奏宁静的旋律,艺术风格是新艺术运动
/imagine一个未来人物在一个未来主义的办公桌上工作,周围是全息屏幕和先进的技术。这个人穿着时尚的银色连身衣,戴着虚拟现实眼镜。环境充满了霓虹灯和漂浮的全息图像。气氛是未来主义和高科技的,充满了兴奋和创新的感觉。摄像机是一个高分辨率的数字摄像机,以精度捕捉每一个细节。艺术风格是赛博朋克和极简主义的融合,注重简洁的线条和鲜明的色彩。导演、摄影师、摄影师、时尚设计师、卡通画家和艺术家在这个独特的并置中合作,他们是克里斯托弗·诺兰、罗杰·迪金斯、安妮·莱博维茨、维吉尔·阿布洛、宫崎骏和Kaws。
/想象一下,1940年代风格的芭比娃娃作为一名战时护士,在一个复古的军队医院环境中,照顾伤员,以经典的玛泰尔插图风格,并具有乌洛色调的二战摄影风格8k-v 5-ar 16:9
/想象一下,一个女人靠在赛博朋克的悬浮摩托车上,日本动漫风格的庞大城市风景,32k,复杂的太空港口,瞬息万变的摩天大楼全景,时尚
最后的想法:通过Midjourney探索AI艺术世界
记住,“一幅图片胜过千言万语”。详细、生动的描述可以产生奇迹。是的,Midjourney并非免费使用。然而,通过其最先进的文本到图像AI技术,它正在改变艺术世界,并扩展我们的创意可能性。它可以将简单的文本提示转化为高分辨率的图像,这是一个承诺无限机会的工具,不仅适用于艺术家,还适用于UI/UX设计师、技术爱好者和AI专业人士。
以下是一些重要的要点,供您在探索Midjourney之旅中记住:
- 学习Midjourney提示的基础知识:使用清晰、简洁、全面的描述来概括您的视觉,以有效地指导AI。记住要考虑您的受众,不要犹豫尝试各种风格、情绪和背景。
- 利用参数:通过利用Midjourney提供的多种高级设置,增强您的创作体验。从控制纵横比到调整混乱参数以获得独特的结果,每个细节都可以根据您的喜好进行调整。
- 拥抱迭代过程:您生成的第一幅AI艺术品可能并不完美。拥抱这个迭代过程,学会改进和优化您的提示,以获得更好的效果。
- 了解版权的影响:虽然AI生成的艺术品本身不符合版权要求,但其中的人工成分可以受到保护。
实质上,将AI融入艺术中使创造力民主化,模糊了人类和机器制作的杰作之间的界线。随着我们继续见证艺术市场中生成AI的显著增长,不可否认的是,由Midjourney等平台引领的AI艺术革命才刚刚开始。