阿里巴巴研究员推出Qwen音频系列:一套具备通用音频理解能力的大型音频语言模型集合

阿里巴巴研究员推出Qwen音频系列:通用音频理解能力的大型语音模型集合

阿里巴巴集团的研究人员推出了Qwen-Audio,它解决了对于多样化任务而言预训练音频模型的限制性挑战。设计了一种基于标签的多任务层次框架,以避免共同训练中的干扰问题。Qwen-Audio在基准任务上取得了令人印象深刻的表现,而无需特定任务的微调。Qwen-Audio-Chat是在Qwen-Audio基础上构建的,支持多轮对话和多样化的音频中心场景,展示了它的通用音频理解能力。

Qwen-Audio通过处理不同类型和任务的多样化音频来克服先前音频语言模型的限制。与仅处理语音的先前工作不同,Qwen-Audio结合了人类语音、自然声音、音乐和歌曲,允许在具有不同详细粒度的数据集上进行共同训练。该模型在语音感知和识别任务中表现出色,无需特定任务的修改。Qwen-Audio-Chat将这些能力延展到与人类意图对齐,支持音频和文本输入的多语言、多轮对话,展示了其强大而全面的音频理解能力。

LLMs在一般人工智能方面表现出色,但缺乏音频理解。Qwen-Audio通过扩大预训练范围,涵盖30个任务和多样化的音频类型来解决这个问题。多任务框架减轻了干扰,实现了知识共享。Qwen-Audio在基准测试中表现出色,而无需特定任务的微调。Qwen-Audio-Chat作为一种扩展,支持多轮对话和多样化的音频中心场景,展示了LLMs中全面音频交互能力。

Qwen-Audio和Qwen-Audio-Chat是通用音频理解和灵活人机交互的模型。Qwen-Audio采用多任务预训练方法,在固定语言模型权重的同时优化音频编码器。相比之下,Qwen-Audio-Chat采用监督微调,即在修复音频编码器权重的同时优化语言模型。训练过程包括多任务预训练和监督微调。Qwen-Audio-Chat支持多语言、多轮对话,从音频和文本输入中展示其适应性和全面的音频理解。

Qwen-Audio在各种基准任务中表现出色,优于无需特定任务微调的对照组。它在AAC、SWRT ASC、SER、AQA、VSC和MNA等任务上始终大幅优于基线。该模型在CochlScene、ClothoAQA和VocalSound上建立了最先进的结果,展示了强大的音频理解能力。Qwen-Audio在各种分析中的卓越性能突显了其在具有挑战性的音频任务中实现最先进结果的有效性和能力。

Qwen-Audio系列引入了具有通用理解能力的大规模音频语言模型,可处理不同的音频类型和任务。通过多任务训练框架的开发,这些模型促进了知识共享,并克服了不同数据集中变化文本标签的干扰问题。在基准测试中取得了令人印象深刻的表现,而无需特定任务的微调,Qwen-Audio超越了先前的工作。Qwen-Audio-Chat扩展了这些能力,支持多轮对话,并支持多样化的音频场景,展示出与人类意图的强大对齐和促进多语言交互的能力。

Qwen-Audio的未来探索包括对不同音频类型、语言和特定任务的能力进行拓展。优化多任务框架或探索替代的知识共享方法可以解决共同训练中的干扰问题。研究特定任务微调可以提高性能。基于新的基准、数据集和用户反馈的连续更新旨在改善通用音频理解。Qwen-Audio-Chat被改进以与人类意图对齐,支持多语言交互,并实现动态的多轮对话。