OpenAI 推出 Whisper 语音识别系统
OpenAI 推出了 Whisper,这是一个开源语音识别系统,可提供多种语言的转录。
我们训练了一个名为 Whisper 的神经网络,它在英语语音识别方面接近人类水平的鲁棒性和准确性。 即使在不同的口音和技术语言上,它也表现良好。 Whisper 是开源的,供所有人使用。 https://t.co/ueVywYPEkK
— OpenAI (@OpenAI) 2022 年 9 月 21 日
根据公告,使用从互联网收集的 68 万小时多语言和多任务处理数据来训练模型。 研究人员说,这使系统能够识别独特的口音、背景噪音和技术术语。
Whisper 用带有明显口音的英语转录音轨。 数据:OpenAI。
据开发人员称,Whisper 在大约 10 种语言的语音识别中显示出良好的效果。
该公司认为,该模型将对研究现代模型的可靠性、能力、局限性和偏差的 AI 研究人员有用。
“Whisper 作为开发人员的自动语音识别解决方案也可能非常有用,特别是对于英语语音识别,”OpenAI 说。
研究人员承认该模型有其局限性,尤其是在文本预测领域。 由于在训练中心化使用了“嘈杂”的数据,Whisper 可能会在转录中包含实际上没有说出来的单词。 开发人员建议这是由于系统试图预测音频中的下一个单词并破译声音本身。
此外,Whisper 在不同语言中的效果也不尽相同。 对于那些语音在训练数据中心化代表性不足的说话者,该系统容易出现更多错误。
该模型的源代码可在 GitHub 上找到。
回想一下,9 月份,OpenAI 允许在 DALL-E 2 中编辑人脸。但是,开发人员禁止将名人的图像上传到系统中。
1 月份,该组织推出了毒性较小的 GPT-3 版本,总体上产生较少的冒犯性语言、错误信息和错误。
在 Telegram 上订阅 ForkLog 新闻:ForkLog AI – 来自 AI 世界的所有新闻
在文本中发现错误? 选择它并按 CTRL+ENTER