我愿意为这个观点而战: 最好的语音模型是那些在关键实体上具有最佳准确性的模型,而不是那些优化词错误率(WER)的模型。 大多数语音转文本提供商都优化WER,但在生产应用中,WER并不是那么相关。 如果你错过了客户的名字、他们的电话号码或他们刚刚逐字拼写的街道地址,那么正确识别95%的单词是毫无用处的。 Gladia团队进行了一个非常酷的基准测试: • 1,000多个呼叫中心对话 • 很多背景噪音 • 专注于提取名字、电话号码、地址、位置等。 Gladia模型的表现超过了其他所有最先进的模型,最高可达17%! 这正是使用这些模型的公司所关心的数据。如果你搞错了这一点,后续的一切都会崩溃。 还有一些其他值得一提的事情: • 部分延迟:< 150毫秒 • 支持100多种语言 • 动态语言检测 • 整体WER为5.97% 对于任何使用语音模型的人来说,绝对值得一看: 感谢Gladia团队与我合作撰写这篇文章。