Temas en tendencia
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Estoy dispuesto a morir en esta lucha:
Los mejores modelos de voz son aquellos con mayor precisión con entidades clave, no aquellos que optimizan para la WER (Tasa de Error de Palabras).
La mayoría de los proveedores de reconocimiento de voz optimizan para WER, pero en aplicaciones de producción, WER no es tan relevante.
Acertar el 95% de las palabras es inútil si te pierdes el nombre del cliente, su número de teléfono o la dirección que acaban de deletrear letra por letra.
El equipo de Gladia realizó un punto de referencia muy interesante:
• 1.000+ conversaciones en centros de llamadas
• Mucho ruido de fondo
• Centrarse en extraer nombres, números de teléfono, direcciones, ubicaciones, etc.
¡El modelo Gladia superó a todos los demás modelos de última generación hasta un 17%!
Estos son precisamente los datos que importan a las empresas que utilizan estos modelos. Si te equivocas en esto, todo el que viene abajo se estropea.
Algunas otras cosas que merece la pena mencionar:
• Latencia en parciales: < 150 ms
• 100+ lenguajes soportados
• Detección dinámica de lenguaje
• WER global con 5,97%
Definitivamente merece la pena comprobarlo para cualquiera que use modelos de voz:
Gracias al equipo de Gladia por colaborar conmigo en esta publicación.
Populares
Ranking
Favoritas
