一站式 Web3 探索中心 | 去中心化应用商店 & Web3 线下活动

热门话题

我愿意为这个观点而战：最好的语音模型是那些在关键实体上具有最佳准确性的模型，而不是那些优化词错误率（WER）的模型。大多数语音转文本提供商都优化WER，但在生产应用中，WER并不是那么相关。如果你错过了客户的名字、他们的电话号码或他们刚刚逐字拼写的街道地址，那么正确识别95%的单词是毫无用处的。 Gladia团队进行了一个非常酷的基准测试： • 1,000多个呼叫中心对话 • 很多背景噪音 • 专注于提取名字、电话号码、地址、位置等。 Gladia模型的表现超过了其他所有最先进的模型，最高可达17%！这正是使用这些模型的公司所关心的数据。如果你搞错了这一点，后续的一切都会崩溃。还有一些其他值得一提的事情： • 部分延迟：< 150毫秒 • 支持100多种语言 • 动态语言检测 • 整体WER为5.97% 对于任何使用语音模型的人来说，绝对值得一看：感谢Gladia团队与我合作撰写这篇文章。