韩国研究人员提出了VITS2:一种突破性的单阶段文本到语音模型,以提高自然度和效率
Korean researchers propose VITS2 a groundbreaking single-stage text-to-speech model to improve naturalness and efficiency.
这篇论文介绍了VITS2,一种单阶段的文本转语音模型,通过改进之前模型的各个方面来合成更自然的语音。该模型解决了诸如间歇性不自然、计算效率和对音素转换的依赖等问题。所提出的方法增强了自然性、多说话者模型中的语音特征相似性,以及训练和推理效率。
之前的方法在音素转换方面的强烈依赖得到了显著减少,从而实现了完全端到端的单阶段方法。
之前的方法:
两阶段流水线系统:这些系统将从输入文本生成波形的过程分为两个级联阶段。第一阶段从输入文本中产生中间语音表示,如mel频谱图或语言特征。然后,第二阶段根据这些中间表示生成原始波形。这些系统存在诸如错误传播、依赖于人工定义的特征(如mel频谱图)以及生成中间特征所需的计算量等限制。
单阶段模型:最近的研究积极探索直接从输入文本生成波形的单阶段模型。这些模型不仅超过了两阶段系统,还展示了生成与人类语音几乎无法区分的高质量语音的能力。
金智宇、金雄宇和孙智铉的《基于条件变分自动编码器和对抗学习的端到端文本到语音合成》是单阶段文本到语音合成领域的重要先前工作。这种之前的单阶段方法取得了巨大的成功,但存在几个问题,包括间歇性不自然、持续预测器的效率低、复杂的输入格式、多说话者模型中的说话者相似性不足、训练缓慢以及对音素转换的强依赖。
本文的主要贡献在于解决之前单阶段模型中发现的问题,特别是上述成功模型中提到的问题,并引入改进措施以实现更好的语音合成质量和效率。
基于深度神经网络的文本到语音合成取得了显著的进展。挑战在于将不连续的文本转换为连续的波形,确保高质量的语音音频。先前的解决方案将该过程分为两个阶段:从文本生成中间语音表示,然后根据这些表示生成原始波形。单阶段模型一直受到积极研究,并超过了两阶段系统。本文旨在解决之前单阶段模型中发现的问题。
论文描述了四个方面的改进:持续预测、带有归一化流的增强变分自动编码器、对齐搜索和说话者条件的文本编码器。提出了一种通过对抗学习训练的随机持续预测器。使用单调对齐搜索(MAS)进行对齐,并对其进行了修改以提高质量。该模型在归一化流中引入了一个Transformer模块以捕捉长期依赖关系。设计了一个说话者条件的文本编码器,以更好地模拟每个说话者的各种语音特征。
在LJ Speech数据集和VCTK数据集上进行了实验。研究使用音素序列和标准化文本作为模型输入。使用AdamW优化器训练网络,并在NVIDIA V100 GPU上进行训练。进行了众包平均意见分数(MOS)测试以评估合成语音的自然性。与之前的模型相比,所提出的方法在合成语音的质量上显示出显著的改进。进行了消融研究以验证所提方法的有效性。最后,作者通过实验证明了他们提出的方法的有效性,并衡量了计算速度,但指出语音合成领域仍存在各种问题,希望他们的工作能成为未来研究的基础。