Tópicos em alta
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Estou disposto a morrer nessa disputa:
Os melhores modelos de voz são aqueles com maior precisão com entidades-chave, não aqueles que otimizam para WER (Taxa de Erro de Palavra).
A maioria dos provedores de fala para texto otimiza para WER, mas em aplicações de produção, o WER não é tão relevante.
Acertar 95% das palavras é inútil se você não mencionar o nome do cliente, o número de telefone ou o endereço que ele escreveu letra por letra.
A equipe da Gladia fez um benchmark muito legal:
• 1.000+ conversas em call center
• Muito ruído de fundo
• Foque na extração de nomes, números de telefone, endereços, localizações, etc.
O modelo Gladia superou todos os outros modelos de última geração em até 17%!
Esses são exatamente os dados que importam para as empresas que usam esses modelos. Se você errar isso, tudo a jusante quebra.
Algumas outras coisas que valem a pena mencionar:
• Latência em parciais: < 150ms
• 100+ idiomas suportados
• Detecção dinâmica de linguagem
• WER geral em 5,97%
Definitivamente vale a pena conferir para quem usa modelos de voz:
Obrigado à equipe da Gladia por colaborar comigo neste post.
Melhores
Classificação
Favoritos
