Ich bin bereit, auf diesem Hügel zu sterben: Die besten Sprachmodelle sind diejenigen mit der besten Genauigkeit bei wichtigen Entitäten, nicht diejenigen, die für WER (Word Error Rate) optimiert sind. Die meisten Speech-to-Text-Anbieter optimieren für WER, aber in Produktionsanwendungen ist WER nicht so relevant. 95 % der Wörter richtig zu haben, ist nutzlos, wenn Sie den Namen des Kunden, seine Telefonnummer oder die Adresse, die er gerade Buchstabe für Buchstabe buchstabiert hat, verpassen. Das Team von Gladia hat einen sehr coolen Benchmark durchgeführt: • 1.000+ Gespräche im Callcenter • Viel Hintergrundgeräusch • Fokus auf das Extrahieren von Namen, Telefonnummern, Adressen, Standorten usw. Das Gladia-Modell übertraf jedes andere hochmoderne Modell um bis zu 17 %! Das sind genau die Daten, die für Unternehmen, die diese Modelle verwenden, wichtig sind. Wenn Sie das falsch machen, bricht alles downstream zusammen. Ein paar andere erwähnenswerte Dinge: • Latenz bei Teilantworten: < 150 ms • 100+ unterstützte Sprachen • Dynamische Spracherkennung • Gesamt-WER bei 5,97 % Definitiv einen Blick wert für jeden, der Sprachmodelle verwendet: Danke an das Gladia-Team für die Zusammenarbeit an diesem Beitrag.