Estoy dispuesto a morir en esta colina: Los mejores modelos de voz son aquellos con la mejor precisión en entidades clave, no aquellos que optimizan para el WER (Tasa de Error de Palabras). La mayoría de los proveedores de conversión de voz a texto optimizan para el WER, pero en aplicaciones de producción, el WER no es tan relevante. Obtener el 95% de las palabras correctas es inútil si te pierdes el nombre del cliente, su número de teléfono o la dirección que acaba de deletrear letra por letra. El equipo de Gladia realizó un benchmark muy interesante: • Más de 1,000 conversaciones de centros de llamadas • Mucho ruido de fondo • Enfoque en la extracción de nombres, números de teléfono, direcciones, ubicaciones, etc. ¡El modelo de Gladia superó a todos los demás modelos de última generación hasta en un 17%! Estos son exactamente los datos que importan a las empresas que utilizan estos modelos. Si te equivocas en esto, todo lo que viene después se rompe. Algunas otras cosas que vale la pena mencionar: • Latencia en parciales: < 150ms • Más de 100 idiomas soportados • Detección dinámica de idiomas • WER general en 5.97% Definitivamente vale la pena revisar para cualquiera que use modelos de voz: Gracias al equipo de Gladia por colaborar conmigo en esta publicación.