Jsem ochoten zemřít v tomhle kopci: Nejlepší hlasové modely jsou ty s nejvyšší přesností u klíčových entit, ne ty, které optimalizují pro WER (Word Error Rate). Většina poskytovatelů převodu řeči na text optimalizuje pro WER, ale v produkčních aplikacích není WER tak relevantní. Správně zařadit 95 % slov je k ničemu, pokud přehlédnete jméno zákazníka, jeho telefonní číslo nebo adresu, kterou právě napsali písmeno po písmenu. Tým v Gladii provedl velmi zajímavý benchmark: • 1 000+ konverzací v call centru • Hodně šumu na pozadí • Zaměřit se na získávání jmen, telefonních čísel, adres, lokalit atd. Model Gladia překonal všechny ostatní špičkové modely až o 17 %! Právě tato data jsou pro firmy používající tyto modely důležitá. Když to uděláte špatně, všechno se rozbije. Ještě pár dalších věcí, které stojí za zmínku: • Latence u parciálů: < 150 ms • Podporovaných 100+ jazyků • Dynamická detekce jazyka • Celkový WER na úrovni 5,97 % Určitě stojí za to to zkontrolovat, pokud někdo používá hlasové modely: Děkuji týmu Gladia za spolupráci na tomto příspěvku.