谷歌AI引入Spectron:第一个经过端到端训练的口语AI模型,可以直接处理频谱图作为输入和输出

谷歌AI的最新进展:引入了经过端到端训练的Spectron口语AI模型,可直接处理频谱图作为输入和输出

<img alt=”” src=”https://ai.miximages.com/www.marktechpost.com/wp-content/uploads/2023/11/Screenshot-2023-11-02-at-8.45.57-PM-1024×692.png”/><img alt=”” src=”https://ai.miximages.com/www.marktechpost.com/wp-content/uploads/2023/11/Screenshot-2023-11-02-at-8.45.57-PM-150×150.png”/><p>演讲延续和问答LLM是多才多艺的工具,可应用于各种任务和行业,使它们在提高生产力、改善用户体验和推动各个领域的研究和开发方面具有价值。这些LLM的知名例子包括GPT-3及其后继者,以其在理解和生成文本方面的卓越表现而引起了广泛关注。</p><p>这些LLM通常建立在深度学习架构上。它们预训练于大量的文本数据,使它们能够理解人类语言的细微差别,并生成与上下文相关且连贯的文本,通过捕捉基于文本的自然语言的统计模式和结构。</p><p>Google Research和Verily AI团队推出了一个新的创新口语语言模型,名为“Spectron”。该模型直接处理频谱图,既作为输入又作为输出。频谱图是信号随时间变化的频率谱的可视表示。该模型使用中间投影层,利用预训练的语音编码器的音频功能。该模型不仅消除了通常出现在预训练编码器和解码器中的归纳偏差,而且在不损失代表性保真度的情况下实现了这一消除。</p><p>语言模型进行文本转录和生成文本延续,充当“中间草稿本”,进一步调整用于音频生成的条件。基于基本事实的偏导数更丰富,长距离地传达了关于信号形状的信息。该团队利用这个事实,通过频谱图回归的方式监督模型匹配基本事实的更高阶时间和特征差。</p><p>该模型的架构采用预训练语音编码器和预训练语言解码器进行初始化。编码器以语音话语作为输入,并将其编码为语言特征。这些特征作为前缀输入到解码器中,整个编码器解码器被优化以最小化交叉熵。这种方法提供了一个口语话语提示,经过编码和解码后同时生成文本和语音延续。</p><p>研究人员使用相同的架构解码中间文本和频谱图。这样做有两个好处。首先,在合成语音之前,将语言模型在文本领域进行预训练,以在文本领域继续提示。其次,预测的文本作为中间推理,提高了合成语音的质量,类似于基于文本的语言模型的改进。</p><p>然而,他们的工作在时间和空间上非常复杂。需要生成多个频谱图帧,这是耗时的。这使得生成长篇讲话不可能。另一个限制是该模型无法并行运行文本和频谱图解码过程。未来,该团队将专注于开发并行解码算法。</p>