微软研究员发布PromptTTS 2:通过增强语音可变性和成本效益的提示生成,革新文本转语音技术

微软研究员发布PromptTTS 2,革新文本转语音技术

由于文本到语音系统的最新发展,合成语音的可懂性和自然度得到了改善。已经为多说话者环境创建了大规模的TTS系统,一些TTS系统的质量已经达到了单说话者录音的水平。尽管取得了这些进展,但是建模语音变异仍然很困难,因为相同短语的不同说法可以传达额外的信息,例如情感和语气。传统的TTS技术通常依赖于说话者信息或语音提示来模拟语音的变异性。然而,这些技术不够用户友好,因为说话者ID是预先定义的,适当的语音提示很难发现或不存在。

对于建模语音变异性来说,一种更有前景的方法是利用指定语音特征的文本提示,因为自然语言对于用户来说是一种方便的界面,可以传达他们对于语音生成的意图。这种策略使得使用文本提示来创建语音变得简单。基于文本提示的TTS系统通常使用与之对应的语音数据集和文本提示进行训练。描述语音变异性或风格的文本提示用于条件化模型如何生成语音。

基于文本提示的TTS系统仍然面临两个主要困难:

一对多挑战:由于语音质量因人而异,书面指令很难准确表示所有语音方面。不同的语音样本可能不可避免地与相同的提示相关联。一对多现象使得TTS模型的训练更具挑战性,并可能导致过拟合或模式崩溃。据他们所知,尚未专门针对基于文本提示的TTS系统中的一对多问题创建过程。

数据规模挑战:由于互联网上很少见到文本提示,编制定义语音的文本提示数据集并不容易。

因此,供应商被雇佣来创建提示,这既昂贵又耗时。提示数据集通常很小或私有,使得在基于提示的TTS系统上进行进一步研究很困难。在他们的工作中,他们提供了PromptTTS 2,它提出了一个变异网络来模拟提示未捕捉到的语音变异性信息。它使用大型语言模型生成高质量的提示来克服上述挑战。他们建议使用变异网络来预测参考语音表示,以预测文本提示中关于语音变异性的缺失信息。参考语音被认为包含了有关语音变异性的所有信息,用于训练变异网络。

PromptTTS 2中的TTS模型由文本提示编码器、参考语音编码器和TTS模块组成,根据文本提示编码器和参考语音编码器检索到的表示合成语音。基于文本提示编码器的即时表示,训练一个变异网络来预测参考语音编码器中的参考表示。他们可以使用变异网络中的扩散模型从以文本提示为条件的高斯噪声中选择关于语音变异性的多样化信息来修改合成语音的特性,从而给用户在生成语音时更多的自由度。

微软的研究人员提出了一个流程,通过使用语音理解模型从语音中识别声音特征,并使用大型语言模型根据识别结果构建文本提示,自动创建用于语音的文本提示。特别地,他们使用语音理解模型来识别语音数据集中每个语音样本的属性值,以描述各种特征的声音。然后,通过将这些短语组合在一起,每个属性的描述在其句子中给出,创建文本提示。与之前的研究依赖于供应商构建和组合短语的方法相比,PromptTTS 2使用已被证明能够以与人类相当的水平执行各种任务的大型语言模型。

他们向LLM提供指导来编写包含特性并将短语组合成完整提示的优秀提示。由于这种完全自动化的工作流程,不再需要人为干预来进行提示编写。以下是本论文的贡献总结:

• 为了解决基于文本提示的TTS系统中的一对多问题,他们构建了一个基于扩散模型的变异网络,用于描述文本提示未涵盖的语音变异性。在推理期间,可以通过从以文本提示为条件的各种高斯噪声中选择样本来管理语音变异性。

• 他们构建并发布了一个由文本提示创建流程和大型语言模型产生的文本提示数据集。该流程减少了对供应商的依赖,并生成了高质量的提示。

• 使用44K小时的语音数据,他们在大规模语音数据集上测试了PromptTTS 2。根据实验结果,PromptTTS 2在生成更符合文本提示的语音的同时,通过从高斯噪声中采样来支持限制声音变化,超越了先前的研究。