热门话题
#
Bonk 生态迷因币展现强韧势头
#
有消息称 Pump.fun 计划 40 亿估值发币,引发市场猜测
#
Solana 新代币发射平台 Boop.Fun 风头正劲
我愿意为这个观点而战:
最好的语音模型是那些在关键实体上具有最佳准确性的模型,而不是那些优化词错误率(WER)的模型。
大多数语音转文本提供商都优化WER,但在生产应用中,WER并不是那么相关。
如果你错过了客户的名字、他们的电话号码或他们刚刚逐字拼写的街道地址,那么正确识别95%的单词是毫无用处的。
Gladia团队进行了一个非常酷的基准测试:
• 1,000多个呼叫中心对话
• 很多背景噪音
• 专注于提取名字、电话号码、地址、位置等。
Gladia模型的表现超过了其他所有最先进的模型,最高可达17%!
这正是使用这些模型的公司所关心的数据。如果你搞错了这一点,后续的一切都会崩溃。
还有一些其他值得一提的事情:
• 部分延迟:< 150毫秒
• 支持100多种语言
• 动态语言检测
• 整体WER为5.97%
对于任何使用语音模型的人来说,绝对值得一看:
感谢Gladia团队与我合作撰写这篇文章。
热门
排行
收藏
