这篇来自纽约大学和谷歌的论文解释了联合语音文本编码器如何在跨模态表示中克服序列长度不匹配的问题
This paper from New York University and Google explains how the joint speech-text encoder overcomes the problem of mismatched sequence lengths in cross-modal representations.
I had trouble accessing your link so I’m going to try to continue without it.
越来越明显的是,通过在单一模态上对大规模无监督语料进行训练,可以取得令人瞩目的成果。这在音频领域已经得到证明,一个模型可以适应各种意外的声学任务,在文本领域也是如此,语言模型已经达到了非凡的零样本能力。类似的成就引发了对如何将类似技术应用于结合两种模态的情况的探索,而这些情况通常依赖于手动配对的数据。
一种有趣的方法是训练一个大型编码器来处理两种模态的数据,以便任何一种模态都可以作为一个未配对的示例呈现,编码器将学习将这两种模态映射到表示空间中的相似位置。通过使用单一模型,在许多图片和文本理解任务上实现了可行且具有最先进性能的表现,已经证明了这种表示在图像/文本领域是可行的。
纽约大学和谷歌的最新研究探讨了是否可以通过对隐式对齐进行一致性正则化来实现在上采样系统中找到的显式对齐所获得的性能提升。他们通过开发一种受动态时间规整启发的方法,来最优地对齐编码器对语音和文本示例的表示。在没有显式对齐模型的情况下,团队证明了最优对齐不仅在训练过程中获得,而且随着网络层的进展而改善。
为了促进对未配对的语音和文本数据的预训练,在语音识别领域出现了一种趋势,即使用联合语音和文本编码器的模型。用于表示语音的较长序列对语音识别来说是一个独特的困难,因为它涉及到两个序列模态。因此,尽管两种模态在同一嵌入空间中表示,但将编码器的语音表示与其文本表示逐帧进行比较变得更加困难。
最后,该研究表明,在单语和多语环境中,通过修改一致性正则化的标准以鼓励在某种对齐下的一致性,而不是直接逐帧比较,可以在没有任何学习对齐模型的情况下,对强大的半监督基线模型进行显著的词错误率改进。根据他们的研究结果,似乎只需要容忍不对齐就足以在跨模态表示中实现一致性。