Je suis prêt à mourir sur cette colline : Les meilleurs modèles vocaux sont ceux qui ont la meilleure précision avec les entités clés, pas ceux qui s'optimisent pour le WER (Taux d'Erreur de Mots). La plupart des fournisseurs de transcription vocale s'optimisent pour le WER, mais dans les applications de production, le WER n'est pas si pertinent. Obtenir 95 % des mots corrects est inutile si vous manquez le nom du client, son numéro de téléphone ou l'adresse qu'il vient d'épeler lettre par lettre. L'équipe de Gladia a réalisé un benchmark très intéressant : • Plus de 1 000 conversations de centres d'appels • Beaucoup de bruit de fond • Concentration sur l'extraction de noms, numéros de téléphone, adresses, lieux, etc. Le modèle Gladia a surpassé tous les autres modèles à la pointe de la technologie jusqu'à 17 % ! C'est exactement les données qui comptent pour les entreprises utilisant ces modèles. Si vous vous trompez là-dessus, tout ce qui suit se casse. Quelques autres points à mentionner : • Latence sur les parties : < 150 ms • Plus de 100 langues prises en charge • Détection dynamique de la langue • WER global à 5,97 % Vraiment à vérifier pour quiconque utilisant des modèles vocaux : Merci à l'équipe de Gladia pour avoir collaboré avec moi sur ce post.