Estou disposto a morrer nessa disputa: Os melhores modelos de voz são aqueles com maior precisão com entidades-chave, não aqueles que otimizam para WER (Taxa de Erro de Palavra). A maioria dos provedores de fala para texto otimiza para WER, mas em aplicações de produção, o WER não é tão relevante. Acertar 95% das palavras é inútil se você não mencionar o nome do cliente, o número de telefone ou o endereço que ele escreveu letra por letra. A equipe da Gladia fez um benchmark muito legal: • 1.000+ conversas em call center • Muito ruído de fundo • Foque na extração de nomes, números de telefone, endereços, localizações, etc. O modelo Gladia superou todos os outros modelos de última geração em até 17%! Esses são exatamente os dados que importam para as empresas que usam esses modelos. Se você errar isso, tudo a jusante quebra. Algumas outras coisas que valem a pena mencionar: • Latência em parciais: < 150ms • 100+ idiomas suportados • Detecção dinâmica de linguagem • WER geral em 5,97% Definitivamente vale a pena conferir para quem usa modelos de voz: Obrigado à equipe da Gladia por colaborar comigo neste post.