“蒸馏低语:AI语音转文字技术的进展”

细微的声音:AI语音转文字技术的最新进展

Distil-Whisper:AI在高效音频转录方面的新方法

订阅我的博客和更多内容,请点击我的AI通讯并获得免费礼物,例如我在YouTube上成功的秘诀!

观看视频:

你知道的,我们已经非常擅长以书面形式与AI进行交流,这主要得益于ChatGPT,还有开源的替代方案。下一步是用我们的声音流利地与他们对话。如果你还没有尝试过,OpenAI有一个非常好的AI叫做Whisper,任何人都可以付费使用并将语音或音频转录为文字,然后可以被任何模型或下游任务使用。它非常强大,但由于计算复杂性和处理音频所需时间的原因,它在任何实时应用中要很好地融入是不容易的。

你知道等待消息被理解需要多么让人恼火。例如,像Siri或Google助手这样的助手。在基于AI的应用中,语音成为不可或缺的美好之前,AI转录员需要变得更加高效。幸运的是,令人惊叹的研究人员正在解决这个音频转录问题,并最近分享了Distil-Whisper。它是一个比原始Whisper模型快6倍、体积缩小了49%、准确率保持了99%的模型。而且最棒的是,它是完全开源的,你现在就可以使用它。

观看视频以查看实时结果示例!

Distil-Whisper在大小和速度上都是Whisper的改进。它的性能并没有变得更好,但它的结果与Whisper相匹配,如果你熟悉Whisper的话,它已经非常出色了,对大多数口音的人类语音理解比我更好。

是的,你没听错。他们使其快了近6倍,具体是5.8倍,想一下…