“Google AI 提出了一种简单高效的端到端基于扩散的文本合成语音模型 E3-TTS:一种简单高效的端到端文本合成语音模型,基于扩散”

Google AI推出简单高效的扩散式端到端文本合成语音模型E3-TTS

在机器学习中,扩散模型是一种常用于图像和音频生成任务的生成模型。扩散模型使用扩散过程,将复杂的数据分布转换为更简单的分布。其关键优势在于能够生成高质量的输出,特别适用于图像和音频合成等任务。

在文本转语音(TTS)系统的背景下,扩散模型的应用相较于传统的TTS系统显示出了显著的改进。这种进展是由于扩散模型具有解决现存系统所面临问题的能力,比如对中间特征质量的严重依赖和部署、训练和设置过程中的复杂性。

Google的研究团队提出了E3 TTS:基于扩散的简易端到端文本转语音。该文本转语音模型依赖于扩散过程来维持时间结构。这种方法使模型能够接受纯文本输入并直接生成音频波形。

E3 TTS模型以非自回归的方式高效处理输入文本,允许直接输出波形而无需进行序列处理。此外,说话者身份和对齐的确定在扩散过程中动态进行。该模型包含两个主要模块:首先,使用预训练的BERT模型从输入文本中提取相关信息;其次,使用扩散UNet模型处理BERT的输出。它通过迭代改善最初的噪声波形,最终预测最终的原始波形。

E3 TTS采用迭代改善过程来生成音频波形。它利用扩散过程对波形的时间结构进行建模,允许在给定音频中灵活地引入潜在结构,而无需额外的条件信息。

E3 TTS建立在预训练的BERT模型之上。此外,该系统在操作时不依赖于音素或字素等语音表征。BERT模型采用子词输入,其输出经过1D U-Net结构进行处理。该结构包括由残差连接连接的下采样和上采样块。

E3 TTS使用预训练的BERT模型中的文本表示,充分利用了大型语言模型的当前发展。E3 TTS依赖于预训练的文本语言模型,简化了生成过程。

该模型的适用性增强了,因为它可以使用文本输入在多种语言中进行训练。

E3 TTS中使用的U-Net结构包括一系列由残差连接连接的下采样和上采样块。为了改进从BERT输出中提取信息,交叉注意力被合并到顶部的下采样/上采样块中。在较低的块中使用自适应softmax卷积神经网络(CNN)内核,其内核大小由时间步长和说话者决定。说话者和时间步骤嵌入通过特征-wise线性调制(FiLM)进行组合,该模块包括用于通道调整和偏置预测的复合层。

E3 TTS中的下采样器在改善噪音信息、将其从24kHz转换为与编码的BERT输出相同长度的序列方面发挥了关键作用,从而显著提高了整体质量。相反,上采样器预测的噪声与输入波形具有相同的长度。

总之,E3 TTS在音频生成方面具有生成高保真音频的能力,接近该领域的显著质量水平。