稳定AI的稳定音频是如何工作的?

AI技术如何实现稳定音频效果?

一款能够生成惊人音乐的新型人工智能!

最初发布在louisbouchard.ai, 但你可以提前2天在我的博客上阅读。

观看视频:

你知道吗,人工智能已经能够创作出惊人的音乐?

没错,就是这样。我们不仅可以在研究背景下自己编码生成音乐,而且还可以在一个网站上只需输入一个简短的文本描述,就能获取音乐样本!而且最棒的是,你可以免费试用每月多达20次!是的,就是那个负责稳定扩散的团队最近推出了稳定音频。稳定音频由稳定性人工智能开发,其工作原理与稳定扩散非常相似,能够理解文本并将抽象的文字转化为音乐表达,就像稳定扩散为图像所做的那样。而且比免费还好的是:他们公开分享了他们如何实现这一切,下面就来深入探讨一下吧!

正如你在我的频道上多次看到的那样,大多数新的生成方法,尤其是涉及到图像和其他复杂信号的方法,都基于我们所称之为扩散网络的方法,就像稳定扩散一样。

为什么这很重要?为什么我再次提到稳定扩散?原因有两点。首先,扩散模型是强大的网络,可以从噪声中生成输出。它们通过学习重复添加噪声直到其重新收敛为真实图像的方法来实现这一点。这是可能的,因为我们以相反的方式训练模型,从图像开始逐渐破坏图像,同时也让模型知道我们是如何破坏图像的。通过数以百万计的实验和示例,我们的模型学会了噪声模式,并能够从完全的噪声构建出一个输入,就像一个图像。

扩散过程与图像到图像风格迁移应用(以草图作为输入,真实图片作为输出).

但现在我们要谈论的是声音,那么这与图像有什么关系呢?事实上,声音与图像非常相似。声音可以转换为幅度谱图。这是声音在时间上的所有频率内容的视觉表示,x轴显示的是…