索尼研究人员提出了BigVSAN:通过GAN-Based Vocoders中的切片对抗网络彻底改变音频质量

Sony researchers propose BigVSAN completely transforming audio quality through slice adversarial networks in GAN-Based Vocoders.

神经网络的发展和它们不断增长的受欢迎程度导致了语音合成技术的显著改进。大多数语音合成系统使用两阶段方法:首先,它们从输入文本中预测出一个中间表示,比如mel频谱图,然后将这个中间表示转换为音频波形。最后一步被称为声码器,对于从mel频谱图生成音频非常重要。

为了提高声码器产生的语音合成质量,人们付出了很多努力。深度生成模型,如自回归模型、生成对抗网络(GAN)模型、流模型和扩散模型,在产生高质量波形方面显示出了潜力。虽然这些深度生成模型需要同时实现良好的样本质量、多样性和快速采样,但与图片生成模型相比,声码器的多样性不那么重要。声码器被设计用于产生与特定mel频谱图相对应的音频,而且由于GAN能够快速生成高质量样本,它们是一种强大而有用的工具。

生成对抗网络(GAN)在声码器领域有效地生成高质量音频波形的潜力引起了广泛关注,甚至比实时更快。然而,基于GAN的声码器存在一个问题,即它们经常难以确定用于区分真实和假数据的最佳特征空间投影,这可能会影响所创建音频的总体质量。

为了解决这些问题,来自日本东京的Sony AI研究团队和Sony Group Corporation研究团队研究了一种改进的GAN训练框架,称为切片对抗网络(SAN),用于图片生成任务。发现通过SAN成功找到更好的特征空间投影,以更好地区分真伪数据。团队研究了SAN是否能够同样提高基于GAN的声码器的效率。为此,他们提出了一种对最小二乘GAN进行修改的方法,最小二乘GAN是声码器中常用的GAN变体。为了使用SAN,这种技术修改了最小二乘GAN的损失函数。

通过一系列的测试,团队展示了用小的改动实现SAN框架可以提高基于GAN的声码器的性能,包括著名的BigVGAN模型。他们的方法为改进音频波形合成与GAN的研究增加了研究语料库。团队将这种基于SAN的声码器命名为BigVSAN,它能够胜过当前最先进的BigVGAN声码器。

团队总结了他们的主要贡献如下:

  1. 软单调化方案:引入了一种称为“软单调化”的方法,将最小二乘GAN调整为最小二乘SAN,改善了它们的特征空间投影。
  1. 性能提升:通过实施SAN和其他修改,团队证明了基于GAN的声码器,包括先进的BigVGAN,可以产生更好的音频结果。
  1. 团队已经公开了代码,以支持重现性。这使得其他研究人员可以复制实验并建立在现有工作的基础上,促进音频合成技术的合作和进步。