“蒸馏低语:AI语音转文字技术的进展”
细微的声音:AI语音转文字技术的最新进展
Distil-Whisper:AI在高效音频转录方面的新方法

订阅我的博客和更多内容,请点击我的AI通讯并获得免费礼物,例如我在YouTube上成功的秘诀!
观看视频:
你知道的,我们已经非常擅长以书面形式与AI进行交流,这主要得益于ChatGPT,还有开源的替代方案。下一步是用我们的声音流利地与他们对话。如果你还没有尝试过,OpenAI有一个非常好的AI叫做Whisper,任何人都可以付费使用并将语音或音频转录为文字,然后可以被任何模型或下游任务使用。它非常强大,但由于计算复杂性和处理音频所需时间的原因,它在任何实时应用中要很好地融入是不容易的。
你知道等待消息被理解需要多么让人恼火。例如,像Siri或Google助手这样的助手。在基于AI的应用中,语音成为不可或缺的美好之前,AI转录员需要变得更加高效。幸运的是,令人惊叹的研究人员正在解决这个音频转录问题,并最近分享了Distil-Whisper。它是一个比原始Whisper模型快6倍、体积缩小了49%、准确率保持了99%的模型。而且最棒的是,它是完全开源的,你现在就可以使用它。
- 如何高效培训您的LLM?小规模实施的最佳实践
- 认识 PhysGaussian:一种将物理基础的牛顿动力学与三维高斯函数相融合,产生高质量新型动作合成的人工智能技术
- ChatGPT适用于家长-提供必要的提示来提高您的生产力
观看视频以查看实时结果示例!
Distil-Whisper在大小和速度上都是Whisper的改进。它的性能并没有变得更好,但它的结果与Whisper相匹配,如果你熟悉Whisper的话,它已经非常出色了,对大多数口音的人类语音理解比我更好。
是的,你没听错。他们使其快了近6倍,具体是5.8倍,想一下…




