Estou disposto a morrer nesta colina: Os melhores modelos de voz são aqueles com a melhor precisão em entidades-chave, não aqueles que otimizam para WER (Taxa de Erro de Palavra). A maioria dos fornecedores de conversão de fala para texto otimiza para WER, mas em aplicações de produção, WER não é tão relevante. Acertar 95% das palavras é inútil se você errar o nome do cliente, o número de telefone dele ou o endereço da rua que ele acabou de soletrar letra por letra. A equipe da Gladia realizou um benchmark muito interessante: • Mais de 1.000 conversas de call center • Muito ruído de fundo • Foco na extração de nomes, números de telefone, endereços, locais, etc. O modelo da Gladia superou todos os outros modelos de ponta em até 17%! Esses são exatamente os dados que importam para as empresas que usam esses modelos. Se você errar isso, tudo o que vem a seguir quebra. Algumas outras coisas que vale a pena mencionar: • Latência em parciais: < 150ms • Mais de 100 idiomas suportados • Detecção dinâmica de idiomas • WER geral em 5,97% Definitivamente vale a pena conferir para quem usa modelos de voz: Obrigado à equipe da Gladia por colaborar comigo neste post.